Python网络爬虫与信息提取(14)—— 百度搜索关键字爬取并整理摘要、标题、关键字等

前言

百度搜索的内容一般包含标题、摘要、网址、时间信息,本次主要实现根据搜索整理30页左右百度的搜索条例成csv文档。

原理

百度爬虫比较简单,模拟浏览器访问就可以爬取到所要的数据,访问某个关键字第几页的网址构成为:

"http://www.baidu.com/s?wd={}&pn={}".format(urllib.parse.quote(word),number)

之后就是解析对应的标签提取信息了。

因为要提取关键字,所以解析得到摘要后需要对摘要进行结巴分词,分词后使用停用词表去掉停用词,最后整理高频词语为关键词。

代码所用停用词表下载:
链接: https://pan.baidu.com/s/1SOMFPaQodZPUyJncQCo-Qw 提取码: 7ipf

代码

 

Guess you like

Origin blog.csdn.net/qq_37668436/article/details/120657736