环境:win10-64位、python3.6
安装依赖
-
安装lxml
pip install lxml
-
安装zope.interface
pip install zope.interface
-
安装wheel
pip inatall wheel
-
安装twisted
在网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载对应的twisted安装即可。(cp36表示Python36,win_amd64表示windows64位。)
pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
ps:此命令是在Twisted-18.9.0-cp36-cp36m-win_amd64.whl所在的目录下执行的。 -
安装pyOpenSSL
pip install pyOpenSSL
-
安装pywin32
pip install pywin32
安装scrapy
pip install scrapy
到此scrapy安装成功。
创建Scrapy项目
scrapy startproject xiaozhu
Scrapy文件介绍
items.py
定义爬取字段
piplines.py
爬虫数据处理, 入库
settings.py
项目设置
myspider.py
用户自建文件, 编写爬虫逻辑
Scrapy爬虫运行
第一种方式:命令行
scrapy crawl xiaozhu
第二种方式:py文件
在爬虫项目中新建main.py,文件名自定义。
from scrapy import cmdline
cmdline.execute('scrapy crawl xiaozhu'.split())