在介绍scrapy之前,我觉得简单介绍下python的class很有必要。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
class cainiao:
def __init__( self ,course,study): #亲左右均两个_哦
self .course = course
self .study = study
#initialize初始化,称虚构函数,类被调用_init_就会运行
def printline( self ):
print ( 'Ihave' , self .study, 'study' , self .course + 'n' ) I_am = cainiao( 'python' , 'domybest' ) I_am.printline() class super_cainiao(cainiao): #cainiao的子类
def forweeks( self ,numbers):
self .numbers = numbers
print ( 'Ihadbeen' , self .study, 'study' , self .course)
print ( 'after' , self .numbers, 'weeks,lamsup_cainiaonow' )
I = super_cainiao( 'python' , 'triedmybest' ) I.forweeks( 1 ) |
结果:
1
2
3
4
5
|
runfile( 'C:/Users/GeiLi/Desktop/unt.py' ,wdir = 'C:/Users/GeiLi/Desktop' ) Ihavedomybeststudypython Ihadbeentriedmybeststudypython for 1 weeks,lamsup_cainiaonow |
超级菜鸟继承菜鸟,虚构函数用的是父类的,numbers给了值为1.
# 别打我,英语语法有点差
有耐心的可以自己查阅更详细的对python 的 class介绍。scrapy走起…..
首先安装:scrapy支持python3已经有几个月了,大家可以在cmd,终端等输入 pip install scrapy安装scrapy模块。不过问题也比较多,scrapy依赖的东西比较多,并且python3好多包不是特别支持scrapy如twisted。
(详细的可以参考新手上路(一))
之后就是创建工程了:在cmd或者linux等终端上
这个命令会在当前目录下创建一个新目录myspider,它的结构大致如下:之后要做的就是编辑items.py,pipelines.py,spiders/spider.py。
除了spider.py都会帮你生成一个框架。自己填上去一些东西就好。
# item.py
import scrapy
class MyprojectItem(scrapy.Item):pass
####spider 目录下的__init__.py编辑
pass
详细可以参照一起学习python网络爬虫补充。
未完待续
PPV课原创文章,未经允许严禁转载。
原文始发于微信公众号(PPV课数据科学社区):大熊学python3爬虫–scrapy浅探(一)
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/13260