python爬虫,使用正则表达式爬取人民网新链接,标题,时间

import requests
import re
res = requests.get('http://politics.people.com.cn/GB/1024/index.html')
content = res.content.decode('GB2312')
# 从人民网源代码中查看网页的编码方式,在代码开头部分可以找到
# <meta http-equiv="content-type" content="text/html;charset=GB2312"/>
# 即该网站编码方式为GB2312,故上面语句解码使用decode('GB2312') print(content) pattern = "<li><a href='(.*?)' target=_blank>(.*?)</a> <em>(.*?)</em></li>" news = re.findall(pattern, content) for i in news: print(i[0],i[1],i[2])

这一小段代码运行后就成功将人民网中新闻的标题,链接,创建时间抓取下来,并保存在列表中,每个列表元素是1个元组,分别保存链接,标题和创建时间。
屏幕显示如下:

/n1/2020/0321/c1024-31642187.html 千方百计加快恢复和稳定就业 为就业创业、灵活就业提供更多机会 2020-03-21
/n1/2020/0321/c1024-31642183.html 在精准防控疫情的同时积极有序推进复工复产 稳住和支持市场主体增强经济回升动力 2020-03-21
/n1/2020/0320/c1024-31642058.html 李克强:在精准防控疫情的同时积极有序推进复工复产 稳住和支持市场主体增强经济回升动力 2020-03-20
/n1/2020/0320/c1024-31642033.html 李克强:千方百计加快恢复和稳定就业 为就业创业、灵活就业提供更多机会 2020-03-20

…………

猜你喜欢

转载自www.cnblogs.com/iceberg710815/p/12540012.html
今日推荐