Python爬虫设计思路

                                 Python爬虫设计思路

一、爬虫架构

  • 爬虫调度端:一般指的入口函数,发起动作的入口。
  • URL管理器:存放待爬取网站的URL和已爬取过的URL的功能(python内存、关系数据库、缓存数据库)。
  • 网页下载器:进行页面爬取的功能(Requests、urllib2)。
  • 网页解析器:对爬取下来的数据进行清洗(BeautifulSoup)。
  • 价值数据:存放意向数据。

二、运行流程

 

三、分析目标

猜你喜欢

转载自blog.csdn.net/m0_38004619/article/details/89514755
今日推荐