爬虫实际应用(1)

1.运行爬虫脚本命令

#编写爬虫脚本时,需要给脚本取一个名字
scrapy crawl name

2.进入调试界面

#该命令会进入到https://movie.douban.com/top250网页的调试界面
scrapy shell https://movie.douban.com/top250

#该命令直接进入到脚脚本的调试界面
python manage.py shell

3.如何寻找代理

开发者工具–Network-All-Headers-Request Headers中找到User-Agent

4.问题:导入from douban.items import MovieItem提示找不到uitems

解决:打开了错误的文件,需要打开上一级包含scapy.cfg的文件夹

5.No module named ‘win32api’

安装:pip install pypiwin32

6.获取爬虫数据

具体可以参考:https://blog.csdn.net/lanhaixuanvv/article/details/78565877

#通过response.css获取到的是一个列表
(1).>>> response.css('title') 

[<Selector xpath='descendant-or-self::title' data='<title>爬虫实验室 - SCRAPY中文网提供</title>'>]

#通过extract获取到title这个标签列表
(2).>>> response.css('title').extract() 

['<title>爬虫实验室 - SCRAPY中文网提供</title>']

#如果只要title标签不要列表,采用extract()[0]来进行获取.[0]获取的是列表的第一个元素
(3)>>>  response.css('title').extract()[0] 

'<title>爬虫实验室 - SCRAPY中文网提供</title>'

#extract_first()效果和extract()[0]一样,只是更简洁
(4)>>>  response.css('title').extract_first()

 '<title>爬虫实验室 - SCRAPY中文网提供</title>'

#采用以上extract_first()或者extract()[0]获取到的还是列表
#但我们只需要文本部分,所以采用以下title::text方法获取到文本,到此我们也就成功获取到文本内容
(5)>>> response.css('title::text').extract_first()


'爬虫实验室 - SCRAPY中文网提供'

7.将爬虫数据在保存在excel表中命令

#name表示脚本的名字,name1表示给我们要导出的excel表取得名字
scrapy crawl name-o name1.csv

8.退出调试

#直接在命令行输入quit进行退出
quit()

1.运行爬虫脚本命令

2.进入调试界面

3.如何寻找代理

4.问题:导入from douban.items import MovieItem提示找不到uitems

5.No module named ‘win32api’

6.获取爬虫数据

7.将爬虫数据在保存在excel表中命令

8.退出调试

猜你喜欢