1.爬虫有哪些模块?
答:
URL管理器:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口
HTML下载器:从URL管理器中获取未爬取的URL链接并下载HTML网页
HTML解析器:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据存储器,常用lxml、xpath、re正则
数据存储器:将HTML解析器解析出来的数据通过文件或数据库的形式存储起来
爬虫调度器:负责统筹调度其他四个模块的协调工作
1.爬虫有哪些模块?
答:
URL管理器:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口
HTML下载器:从URL管理器中获取未爬取的URL链接并下载HTML网页
HTML解析器:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据存储器,常用lxml、xpath、re正则
数据存储器:将HTML解析器解析出来的数据通过文件或数据库的形式存储起来
爬虫调度器:负责统筹调度其他四个模块的协调工作