python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间 - 代码天地

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

其他 2020-03-21 17:50:51 阅读次数: 0

import requests
from bs4 import BeautifulSoup as bs
res = requests.get('http://politics.people.com.cn/GB/1024/index.html')
content = res.content.decode('GB2312')
soup = bs(content, 'html5lib')
myList = soup.find_all('li')

myNews = {}
for i in myList:
    myNews = {}
    myNews['title'] = i.find('a').get_text()
    myNews['link'] = i.find('a').get('href')
    myNews['time'] = i.find('em').get_text()
    print(myNews)

　　运行结果显示：

{'title': '千方百计加快恢复和稳定就业为就业创业、灵活就业提供更多机会', 'link': '/n1/2020/0321/c1024-31642187.html', 'time': '2020-03-21'}
{'title': '在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力', 'link': '/n1/2020/0321/c1024-31642183.html', 'time': '2020-03-21'}
{'title': '李克强：在精准防控疫情的同时积极有序推进复工复产稳住和支持市场主体增强经济回升动力', 'link': '/n1/2020/0320/c1024-31642058.html', 'time': '2020-03-20'}

通过和上一篇博客使用正则表达式抓取人民网新闻相比较，对于简单的网页抓取，使用正则表达式获取网页信息更简单，快捷。

猜你喜欢

转载自www.cnblogs.com/iceberg710815/p/12540424.html

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

python爬虫，使用正则表达式爬取人民网新链接，标题，时间

爬虫——爬取人民网数据生成词云图

Python 爬取人民网领导留言板留言（一）：单进程版+selenium模拟

Python 爬取人民网领导留言板留言（二）：多线程版+selenium模拟

python3 BeautifulSoup模块使用与Python爬虫爬取博客园作业

通过关键词爬取人民网新闻入库并实现url去重

使用Python的BeautifulSoup爬取赶集网

人民网举报

python爬虫爬取招聘（ requests，BeautifulSoup）

使用beautifulsoup爬取丁香网评论

Python爬虫项目：爬虫爬取BeautifulSoup模块分析网页数据

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

爬虫实战利用BeautifulSoup爬取天气网存储postgresql

【python爬虫自学笔记】-----爬取简书网站首页文章标题与链接

Python使用BeautifulSoup爬取网页信息

python学习笔记之网络爬虫(七)爬取官网信息标题

python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

Python爬虫 | 使用Selenium和BeautifulSoup爬取xxxticket信息并保存到Excel文件

Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

python爬虫：爬取百度云盘资料，保存下载地址、链接标题、链接详情

python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据

Python爬虫模拟登录(四)：BeautifulSoup，爬取数据

Python爬虫之BeautifulSoup库——爬取大学排名

Python爬虫：用BeautifulSoup进行NBA数据爬取

Python爬虫实现使用beautifulSoup4爬取名言网功能案例

python3爬虫实战-requests+beautifulsoup-杭电官网比赛信息实时爬取

Python爬虫之Beautifulsoup模块的使用

python爬虫：爬取拉勾网数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)