数据加学堂：大熊学python3爬虫–scrapy浅探（三）

ppvke • 2016年8月18日 am12:00 • 数据分析

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

在新手上路（三）贴过一段代码，就是爬取问吧里面的question 问题，answer回答，topic话题标签,source问题来自哪个板块。

有一种有一种感觉就是被折腾的不要不要的，DataFrame想merge又不好办，map()智能针对返回值只有一个的函数，本来pandas,numpy就不怎么熟练。

发现scrapy处理就简单了。

spider

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

VARITEM是自定义函数，在parse中Request对其进行调用，并且把url值给了它。算得上有两只脚的爬虫了。

item

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

settings

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

pipelines

采用最常用的管道，对数据库，什么的接口不熟

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

———————————————————-

看着这个结构就感觉比py2的简洁多了。完全不用懂http协议什么的。

运行爬虫—- 让系统帮搞定csv，管道学的差：

scrapy crawl daxiong -o item.csv

结果：

数据加学堂：大熊学python3爬虫–scrapy浅探（三）

txt格式的：unicode码……就不贴了，有点吓人。

搞了这么多，对框架应该有些了解了。

PPV课原创文章，转载请附上本文链接：http://www.ppvke.com/Blog/archives/36293

CDA数据分析师level 2

SAS专题：

深圳8月27-28日，9月3-4日，10-11日（6天）

SPSS MODELER专题：

深圳2016年9月16-18日，23-25日 6天（面授）

上海2016年10月21-23日，28-30日6天（面授+远程）

查看培训详情请点击左下角“阅读原文”

原文始发于微信公众号（PPV课数据科学社区）：数据加学堂：大熊学python3爬虫–scrapy浅探（三）

原创文章，作者：ppvke，如若转载，请注明出处：http://www.ppvke.com/archives/13123

数据分析数据挖掘

赞 (0)

0

数据咖学堂：大熊学python3爬虫–scrapy浅探（二）

« 上一篇 2016年8月17日 am12:00

走近大数据生态——2016 Tableau 可视化分析峰会（深圳站）

下一篇 » 2016年8月19日 am12:00

联系我们

4000-51-9191

在线咨询：

工作时间：周一至周五，9:30-18:30，节假日休息