Python使用bs4爬取数据时乱码问题 - 代码天地

Python使用bs4爬取数据时乱码问题

其他 2019-04-17 23:27:35 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yhj198927/article/details/88875552

使用requests和beautifulsoup模块爬取网页数据时，有时会出现乱码情况，如下所示：

需要爬去的网页的编码格式为：

Pyhton代码如下所示：

import requests
from bs4 import  BeautifulSoup

def get_content(url):
    content_data=requests.get(url)
    #下面这句话去掉则乱码，加上则正常显示，编码格式gb2312是根据网页源代码中设置的编码格式来指定的  
    content_data.encoding='gb2312'
    soup=BeautifulSoup(content_data.text,"html.parser")
    content=soup.select("#f_article > p")
    return content[0].get_text()

正常编码：

猜你喜欢

转载自blog.csdn.net/yhj198927/article/details/88875552

Python使用bs4爬取数据时乱码问题

python使用bs4爬取boss静态页面

Python使用bs4爬取 cnblogs

python 简单爬取本地文档与爬取网页使用requests和bs4，及自己问题的解决

bs4 爬取网页数据(一)

bs4解析爬取星巴克数据

用xpath、bs4、re爬取B站python数据

利用python bs4爬取个人逾期数据

利用python bs4爬取企业逾期数据

python接口自动化测试十八：使用bs4框架爬取图片

python2使用bs4爬取腾讯社招

python爬虫系列(3.7-使用 bs4 爬取获取贵州农产品)

python爬虫—使用bs4爬取链家网的房源信息

在python3中使用bs4模块爬取电影名称

bs4爬取网站图片

bs4爬取网页基础

BS4爬取小说内容

python结合第三方库bs4初次尝试爬取聚合数据api信息

金融数据分析（二）python预热：用bs4爬取某省的大学排名

网络爬虫 - 4 bs4的使用方法与爬取案例

Python 爬虫 bs4 数据解析基本使用

利用python的bs4和selenium库结合实现动态页面的爬取（爬取天气网上面的历史天气数据）

Python3-selenium\phantomjs\bs4爬取斗鱼页面

python利用 request bs4 模块爬取imgur网站图片

[Python 爬虫之路1] 爬取糗事百科（requests，bs4）

Python网络爬虫requests、bs4爬取空姐图片，福利哦

Python网络爬虫requests、bs4爬取空姐网图片

python爬虫学习（十一）bs4解析爬取三国演义

利用bs4和requests爬取股票历史交易数据

bs4实战之三国演义数据爬取

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)