爬虫方面的进展

经过几个月的摸索、实践、调试,对Scrapy的使用掌握的比较熟练了。并且结合Selenium的使用,目前已经完成了当当图书数据的抓取,大概260多万条吧,并且每隔几天会自动抓取新增图书数据。

这几个月无论对于Scrapy还是Selenium的使用,都有了不少的收获。

美中不足的是当当的数据比较杂乱,并且图书标题等信息也不够规范,接下来打算抓取豆瓣和京东图书的数据,争取将这份数据给完善起来。

猜你喜欢

转载自www.cnblogs.com/mazhiyong/p/11582318.html