1. 首页
  2. 数据分析

大熊学python3爬虫–scrapy浅探(一)

大熊学python3爬虫–scrapy浅探(一)在介绍scrapy之前,我觉得简单介绍下python的class很有必要。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
classcainiao:
def__init__(self,course,study):#亲左右均两个_哦
self.course=course
self.study=study
#initialize初始化,称虚构函数,类被调用_init_就会运行
defprintline(self):
print('Ihave',self.study,'study',self.course+'n')
I_am=cainiao('python','domybest')
I_am.printline()
classsuper_cainiao(cainiao):#cainiao的子类
defforweeks(self,numbers):
self.numbers=numbers
print('Ihadbeen',self.study,'study',self.course)
print('after',self.numbers,'weeks,lamsup_cainiaonow')
I=super_cainiao('python','triedmybest')
I.forweeks(1)

结果:

1
2
3
4
5
runfile('C:/Users/GeiLi/Desktop/unt.py',wdir='C:/Users/GeiLi/Desktop')
Ihavedomybeststudypython
Ihadbeentriedmybeststudypython
for1weeks,lamsup_cainiaonow

超级菜鸟继承菜鸟,虚构函数用的是父类的,numbers给了值为1.

# 别打我,英语语法有点差

有耐心的可以自己查阅更详细的对python 的 class介绍。scrapy走起…..

首先安装:scrapy支持python3已经有几个月了,大家可以在cmd,终端等输入 pip install scrapy安装scrapy模块。不过问题也比较多,scrapy依赖的东西比较多,并且python3好多包不是特别支持scrapy如twisted。

(详细的可以参考新手上路(一))

之后就是创建工程了:在cmd或者linux等终端上

输入scrapystartprojectmyspider

这个命令会在当前目录下创建一个新目录myspider,它的结构大致如下:大熊学python3爬虫–scrapy浅探(一)之后要做的就是编辑items.py,pipelines.py,spiders/spider.py。

除了spider.py都会帮你生成一个框架。自己填上去一些东西就好。

# item.py

import scrapy

class MyprojectItem(scrapy.Item):pass

####spider 目录下的__init__.py编辑

pass

详细可以参照一起学习python网络爬虫补充。

未完待续

PPV课原创文章,未经允许严禁转载。

原文始发于微信公众号(PPV课数据科学社区):大熊学python3爬虫–scrapy浅探(一)

原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/13260

联系我们

4000-51-9191

在线咨询:点击这里给我发消息

工作时间:周一至周五,9:30-18:30,节假日休息