Python 分布式爬虫框架 Scrapy 4-1 待爬取网站及爬取策略说明

起始URL为:

https://news.cnblogs.com/

文章列表页的url格式固定,通过修改url获取不同分页的数据是常用的方法,但当分页数变化时,需要修改配置。

最终爬取策略:

获取每个分页“下一页”的链接。

发布了101 篇原创文章 · 获赞 26 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/liujh_990807/article/details/100027707