5行Python提取海量新闻网站内容

目录

1、安装模块

2、提取网页内容


本篇博客又双叒叕为各位分享一个Python库:GeneralNewsExtractor(GNE),其是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

需要明白:GeneralNewsExtractor(GNE)不是 爬虫 ,是为了规避不必要的风险,因此,本项目的输入是 HTML源代码,输出是一个字典,请自行使用恰当的方法获取目标网站的 HTML。

1、安装模块

安装GeneralNewsExtractor模块指令如下所示:

pip install gne

安装成功效果如下所示:

2、提取网页内容

本次我打算提取,最新的时事,选用网易新闻,文章如下所示:

 右键查看该页文章的源码,如下所示:

 拷贝源码接下来,5行代码实现提取新闻内容,如下所示:

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html)
print(result)

效果如下所示: 

如果标题自动提取失败了,你可以指定 XPath,代码如下所示:

from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '你的目标网页正文'
result = extractor.extract(html, title_xpath='//h5/text()')
print(result)
原创文章 193 获赞 9492 访问量 122万+

猜你喜欢

转载自blog.csdn.net/m0_38106923/article/details/105895220