1. 首页
  2. 数据分析

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

在新手上路(三)贴过一段代码,就是爬取问吧里面的question 问题,answer回答,topic话题标签,source问题来自哪个板块。

有一种有一种感觉就是被折腾的不要不要的,DataFrame想merge又不好办,map()智能针对返回值只有一个的函数,本来pandas,numpy就不怎么熟练。

发现scrapy处理就简单了。

spider

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

VARITEM是自定义函数,在parse中Request对其进行调用,并且把url值给了它。算得上有两只脚的爬虫了。

item

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

settings

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

pipelines

采用最常用的管道,对数据库,什么的接口不熟

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

———————————————————-


看着这个结构就感觉比py2的简洁多了。完全不用懂http协议什么的。


运行爬虫—- 让系统帮搞定csv,管道学的差:

scrapy crawl daxiong -o item.csv


结果:

数据加学堂:大熊学python3爬虫–scrapy浅探(三)

txt格式的:unicode码……就不贴了,有点吓人。


搞了这么多,对框架应该有些了解了。

PPV课原创文章,转载请附上本文链接:http://www.ppvke.com/Blog/archives/36293

CDA数据分析师level 2

SAS专题
深圳8月27-28日,9月3-4日,10-11日(6天)
SPSS MODELER专题
深圳2016年9月16-18日,23-25日 6天 (面授)
上海2016年10月21-23日,28-30日6天 (面授+远程)
查看培训详情请点击左下角“阅读原文

原文始发于微信公众号(PPV课数据科学社区):数据加学堂:大熊学python3爬虫–scrapy浅探(三)

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/13123

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息