解决爬虫response.text后中文的乱码问题 - 代码天地

解决爬虫response.text后中文的乱码问题

其他 2019-05-28 23:18:08 阅读次数: 0

有两种解决方式
1.使用response.encoding = 'utf-8'
2.使用.encode('iso-8859-1').decode('gbk')

爬取美女壁纸缩略图并解决标题乱码问题

http://pic.netbian.com/4kmeinv/
http://pic.netbian.com/4kmeinv/index_2.html


import requests
from lxml import etree
start_page = int(input('start page num:'))
end_page = int(input('end page num:'))

if not os.path.exists('./meinvs'):
    os.mkdir('./meinvs')

#通用的url模板(不能修改)
url = 'http://pic.netbian.com/4kmeinv/index_%d.html'
for page in range(start_page,end_page+1):
    if page == 1:
        new_url = 'http://pic.netbian.com/4kmeinv/'
    else:
        new_url = format(url%page)
    response = requests.get(url=new_url,headers=headers)
    #  response.encoding = 'utf-8' 第一种方式
    page_text = response.text
    #解析名称和图片的src属性值
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    for li in li_list:
        img_name = li.xpath('./a/img/@alt')[0]
        img_name = img_name.encode('iso-8859-1').decode('gbk')+'.jpg'  # 第二种方式
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_path = './meinvs/'+img_name
        request.urlretrieve(img_src,img_path)
        print(img_name,'下载成功！！！')

猜你喜欢

转载自www.cnblogs.com/robertx/p/10940903.html

解决爬虫response.text后中文的乱码问题

scrapy response.text 乱码问题解决方案

爬虫笔记：response.text和response.content的区别

response.text 与 response.content

response.text和response.content

request、response 中文乱码问题与解决方式

response与request中文乱码问题及解决方式

解决Response.AddHeader中文乱码问题

Response响应解决中文乱码问题

response解决中文输出乱码问题

解决 Fiddler Response body 中文乱码问题

python3 requests请求response.text返回\u 16进制数字，转换中文

response中文乱码问题

解决sublime text中文乱码的问题

解决Sublime Text3 编辑java保存后在cmd下运行中文显示乱码的问题

Sublime Text3 解决编辑java保存后在cmd下运行中文显示乱码的问题

python中response.text与response.content的区别

response.text 和response.content的区别

response.text和 response.content的区别:

python response.text和response.content的区别

解决response乱码问题

Servlet response中文乱码的解决

response响应中文乱码问题

解决python爬虫中文乱码问题

HttpServletResponse详解（包括如何解决Response中文乱码问题）

java解决request和response中文乱码问题

JAVA --- Servlet(response与request)如何解决中文乱码问题？

response.setContentType(“text/html；charset=utf-8“)后依然乱码的解决方法

爬虫-解决中文乱码

解决使用sublime text打开文件后使用别的编译器打开文件其中的中文会乱码的问题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)