Day2-Python爬虫小练 爬取百科词条

  昨天通过学习了解了爬虫的简单架构:今天我们就将他进行了具体的练习-爬取 百科词条

首先环境是eclipse+python3.8

先看一下具体的框架:

url_manager:url管理器;html_downloader:网页下载器;html_parser:网页解析器;html_outputer:获取输出

一般来说 我们比较关心的是解析器   :如何将网页中的数据提取出来  ——一般 选中页面中的要提取的内容  右键审查元素  看他所在的模块  

例如:右键选中 

审查元素

右键 edit as html

复制目的物的模块代码

<dd class="lemmaWgt-lemmaTitle-title">
<h1>区块链</h1>

在爬虫解析器中我们会这样使用:

  title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
        res_data['title']=title_node.get_text()

猜你喜欢

转载自www.cnblogs.com/1983185414xpl/p/12177593.html