python爬虫，使用正则表达式爬取人民网新链接，标题，时间 - 代码天地

python爬虫，使用正则表达式爬取人民网新链接，标题，时间

其他 2020-03-21 16:50:47 阅读次数: 0

import requests
import re
res = requests.get('http://politics.people.com.cn/GB/1024/index.html')
content = res.content.decode('GB2312')
# 从人民网源代码中查看网页的编码方式，在代码开头部分可以找到
# <meta http-equiv="content-type" content="text/html;charset=GB2312"/>
# 即该网站编码方式为GB2312，故上面语句解码使用decode('GB2312')
print(content)
pattern = "<li><a href='(.*?)' target=_blank>(.*?)</a> <em>(.*?)</em></li>"
news = re.findall(pattern, content)
for i in news:
    print(i[0],i[1],i[2])

这一小段代码运行后就成功将人民网中新闻的标题，链接，创建时间抓取下来，并保存在列表中，每个列表元素是1个元组，分别保存链接，标题和创建时间。
屏幕显示如下：

/n1/2020/0321/c1024-31642187.html 千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会 2020-03-21
/n1/2020/0321/c1024-31642183.html 在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力 2020-03-21
/n1/2020/0320/c1024-31642058.html 李克强：在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力 2020-03-20
/n1/2020/0320/c1024-31642033.html 李克强：千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会 2020-03-20

…………

猜你喜欢

转载自www.cnblogs.com/iceberg710815/p/12540012.html

python爬虫，使用正则表达式爬取人民网新链接，标题，时间

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

Python爬虫：正则表达式爬取校花网

Selenium+python --使用正则表达式爬取页面的URL链接

使用python3的正则表达式爬取图片链接

Python爬虫学习（一）使用Requests和正则表达式爬取简单网页

re 正则表达式爬取网站标题

Python3网络爬虫实战解析——静态小说网爬取（使用正则表达式解析）

「python爬虫之路day9」:实战之使用正则表达式爬取抓狂网，古诗文网信息

【Python3 爬虫】U20_正则表达式爬取古诗文网

爬虫15-正则表达式爬取中国诗词网

爬虫实战——利用正则表达式爬取古诗文网

利用正则表达式爬取官网数据及反反爬虫方法分析

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

python爬虫入门练习，使用正则表达式和requests爬取LOL官网皮肤

初识python 之爬虫：使用正则表达式爬取”古诗文“网页数据

python爬虫入门——爬取猫眼电影排行（使用requests库和正则表达式）

python 爬虫正则表达式爬取猫眼电影top100榜

自学python爬虫（四）Requests+正则表达式爬取猫眼电影

Python爬虫-利用正则表达式爬取猫眼电影

Python网络爬虫（四）re正则表达式之爬取CSDN博客

Python爬虫：正则表达式爬取猫眼电影

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫之正则表达式爬取猫眼前100的电影（七）

python爬虫学习（八）正则表达式批量爬取妹子图片

Python 利用BeautifulSoup和正则表达式来爬取旅游网数据

案例：使用正则表达式的爬虫（爬取段子网的关键信息）

python正则表达式爬取猫眼电影

python爬取准备二正则表达式

使用正则表达式爬取内容

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)