Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示 - 代码天地

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

企业开发 2020-09-14 10:19:20 阅读次数: 0

我们以 fox新闻 网的文章来举例子，把整篇文章爬取出来。

首先是标题，通过结构可以看出来 class 为 article-header 的节点下的 h1 里的内容即是标题，通过 string 可以获取 dom 节点里的文本内容。

# 获取文章标题
alert_header = soup.find('header', class_="article-header").find('h1')
print(alert_header.string)

在这里插入图片描述
然后是正文，通过结构可以看出来 class 为 article-body 的节点下的 p 元素组成了正文内容，通过 contents 可以获取 body 下所有的节点。再遍历所有的节点，把所有 p 元素的下的内容打印出来。

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = urlopen('https://www.foxnews.com/tech/mom-received-dirty-diapers-amazon')
soup = BeautifulSoup(url, 'html.parser')   # parser 解析

# 获取文章标题
alert_header = soup.find('header', class_="article-header").find('h1')
print("标题如下：")
print(alert_header.string)

# 获取文章正文
alert_body = soup.find('div', class_="article-body").contents   # 所有body里的p节点

# 打印文章正文
print("正文如下：")
for i in alert_body:
    if(i.name == "p"):
        print(i.getText())
        print()

运行效果图：
如果中间夹杂了广告，可以看看文章正文跟广告在结构上有什么区别，然后进一步把广告剔除。
在这里插入图片描述
喜欢的点个赞❤吧！

猜你喜欢

转载自blog.csdn.net/qq_38161040/article/details/104021581

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

Python爬虫：学习啦网站文章内容爬取

python爬取csdn的文章内容

Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

用Python网络爬虫框架Scrapy实现对新华网的文章内容爬取

python:BeautifulSoup解析爬取网页文章demo

python爬虫之selenium+BeautifulSoup库，爬取搜索内容并保存excel

Python爬虫自学之第（③）篇——实战：requests+BeautifulSoup实现静态爬取

利用python的requests和BeautifulSoup库爬取小说网站内容

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

python爬取微信公众号文章（包含文章内容和图片）

Python爬虫之BeautifulSoup库——爬取大学排名

【Python】【进阶篇】十一、Python爬虫的Requests库补充

Python中利用BeautifulSoup库进行简单的网页爬虫

python爬虫学习第二天，利用BeautifulSoup库和Requests库爬取网站

python——图片爬虫：爬取爱女神网站(www.znzhi.net)上的妹子图进阶篇

python爬虫实战：利用pyquery爬取猫眼电影TOP100榜单内容-1

python爬虫实战：利用beautiful soup爬取猫眼电影TOP100榜单内容-1

Python使用BeautifulSoup爬取网页信息

Python爬虫：selenium挂shadowsocks代理爬取网页内容

Python爬虫入门：爬取某个网页的小说内容

python爬虫爬取招聘（ requests，BeautifulSoup）

Python爬取网页内容

Python 爬虫爬取网页

Python爬虫项目：爬虫爬取BeautifulSoup模块分析网页数据

Python 爬虫篇-简单获取页面信息，BeautifulSoup的使用，爬取墨迹天气天气信息演示，调用墨迹天气接口api。

Python - Python 简单爬取网页内容

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)