Python使用bs4爬取数据时乱码问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yhj198927/article/details/88875552

使用requests和beautifulsoup模块爬取网页数据时,有时会出现乱码情况,如下所示:

需要爬去的网页的编码格式为:

Pyhton代码如下所示:

import requests
from bs4 import  BeautifulSoup
def get_content(url):
    content_data=requests.get(url)
    #下面这句话去掉则乱码,加上则正常显示,编码格式gb2312是根据网页源代码中设置的编码格式来指定的  
    content_data.encoding='gb2312'
    soup=BeautifulSoup(content_data.text,"html.parser")
    content=soup.select("#f_article > p")
    return content[0].get_text()

正常编码:

猜你喜欢

转载自blog.csdn.net/yhj198927/article/details/88875552