如何提取网页中的日期？ - 代码天地

如何提取网页中的日期？

企业开发 2022-06-22 22:43:23 阅读次数: 0

虽然在提取新闻正文的时候，准确率比较高，但由于提取新闻发布时间使用的是正则表达式，因此提取效果有时候不那么让人满意。

最近我发现Python的一个第三方库，叫做htmldate，经过测试，它提取新闻的发布时间比较准确。我们来看看这个库怎么使用。

首先使用pip安装：

python3 -m pip install htmldate

然后，我们使用Requests或者Selenium获得网站的源代码：

import requests

from htmldate import find_date

html = requests.get('https://www.kingname.info/2022/03/09/this-is-gnelist/').content.decode('utf-8')

date = find_date(html)

print(date)

运行效果如下图所示：

而这篇文章的发布时间，确实是3月9号

我们再用网易新闻来看一下，相互激励增进友谊（精彩绽放） |残奥|中国代表团|单板滑雪|夺金_网易政务[2] 这篇新闻对应的发布时间如下图所示：

现在我们用Requests获得它的源代码，然后再提取发布时间：

发布日期确实对了，但是后面的时间怎么丢失了呢？如果想把时分秒保留下来，可以增加一个参数outputformat，它的值就是你在datetime.strftime里面输入的值：

find_date(html, outputformat='%Y-%m-%d %H:%M:%S')

运行效果如图所示：

find_date的参数，除了网页源代码外，还可以传入URL，或者是lxml里面的Dom对象，

例如：

from lxml.html import fromstring

selector = fromstring(html)

date = find_date(selector)

猜你喜欢

转载自blog.csdn.net/Blue92120/article/details/125421444

如何提取网页中的日期？

Delphi提取网页中的图片

如何将网页中的音频文件提取出来

HtmlParser提取网页中的纯文本信息

如何提取PDF中的页面？

如何提取pdf中的图片

如何去除网页噪声提取数据（01） —— 去哪儿网

需求: 提取备忘录信息中的日期转换

python自动提取文本中的时间（包含中文日期）

用正则表达式提取文本中的日期

正则提取html网页中字符串

python学习笔记——爬虫中提取网页中的信息

将metalink中的网页链接用python 提取

Python爬虫从入门到精通（四）提取网页中的信息

如何比较Django中的日期

在 Java 中如何比较日期？

网页开发中如何居中

如何下载网页中的图片

如何找到网页中的视频

如何快速提取pdf中的图片呢?

如何提取Redis中的大KEY

如何使用scrapy中的ItemLoader提取数据？

makefile中如何提取文件名

centos 7 中如何提取IP地址

如何使用 Python 提取 JSON 中的数据？

mac如何提取视频中的音频？

日期自动提取

网页提取内容

提取网页数据

提取网页代码

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)