Scrapy爬虫实例(1)——爬取网页教师的信息
具体代码资料等见:https://download.csdn.net/download/weixin_41104835/11006621
(如果有需要,没有积分的,留邮箱,发你链接)
新建项目
-
要了解具体步骤的,可以参考另外一篇博文:
https://blog.csdn.net/weixin_41104835/article/details/88319765
-
创建爬虫,指定爬取页面
-
编写管道文件 pipelines.py: 处理爬虫返回的item数据
-
在 setting.py 文件中打开管道
-
items.py 文件:定义字段,存储数据
-
爬虫文件 itcast.py:发请求,处理响应,将响应的数据存储到item中,并返回给管道文件处理
Scrapy出现的问题及解决方案
(1)显示没有模块
改变导包方式:
from mySpider.mySpider.items import MyspiderItem 改为:
from ..items import MyspiderItem
(2)写入数据时出现错误
解决了上一个问题之后,又出现了下面的问题。。。。也是醉了。。。。。
问题终于解决了,可以爬到数据了。。。。。。。。
生成的数据文件夹及数据如下: