xpath案例爬取58出租房源信息&解析下载图片数据&乱码问题 - 代码天地

xpath案例爬取58出租房源信息&解析下载图片数据&乱码问题

其他 2019-09-30 13:37:56 阅读次数: 0

58二手房解析房源名称

from lxml import etree
import requests
url = 'https://haikou.58.com/chuzu/j2/'
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.36'
}
parser = etree.HTMLParser(encoding='utf-8')
page_text = requests.get(url=url).text
tree = etree.HTML(page_text,parser=parser)
lis = tree.xpath('//ul[@class="house-list"]/li')
for li_item in lis:
    res=li_item.xpath('.//h2/a/text()') #注意 ./  
    print(res[0].strip())

爬取彼岸图网图片

from lxml import etree
import requests
url = 'http://pic.netbian.com/4kfengjing'
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.36'
}
parser = etree.HTMLParser(encoding='utf-8')
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text,parser=parser)
res = tree.xpath('//div[@class="slist"]//li/a/img/@src')
count=0
for url_item in res:
    full_url = "%s%s"%('http://pic.netbian.com/',url_item)
    res = requests.get(url=full_url).content
    with open('图片%s.jpg'%count,'wb')as f:
        f.write(res)
    count+=1

乱码问题:

　　1.整体

　　　　- response = requests.get(url=xxx,headers=xxx)

　　　　-response.encoding = 'utf-8'

　　2. 单独

　　　 - xxx.encode('iso-8859-1').decode('gbk') （通用处理中文乱码方案)

猜你喜欢

转载自www.cnblogs.com/Jnhnsnow/p/11612292.html

xpath案例爬取58出租房源信息&解析下载图片数据&乱码问题

xpath解析：下载图片案例

xpath 解析及案例

xpath案例-全国城市名爬取

Python 爬虫数据解析--xpath案例

爬虫小案例爬取笑话 xpath

xpath案例-4K图片爬取

爬虫数据-Xpath(豆瓣读书小案例)

网络爬虫 - 5 Xpath的使用方法与爬取案例

xpath爬取58二手房的房源信息

xpath案例-58二手房

Python爬虫：爬取淮安出租房源信息56页1111套

初探爬虫：xpath提取信息，爬取页面小案例

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

使用Scrapy框架爬取58同城的出租房信息

python爬虫三大解析数据方法：xpath 及爬段子网案例

案例_(单线程)使用xpath爬取糗事百科

两个简单的xpath案例（爬取糗事百科 & 扇贝单词）

一个python爬虫案例，带你掌握xpath数据解析方法！

一个Python爬虫案例，带你掌握xpath数据解析方法

xpath 解析之爬取招聘信息

利用xpath爬取lianjia租房信息并保存到数据库

Python爬虫入门案例（二）电影票房数据库爬取（request+XPath+csv）

python爬虫精选06集（xpath解析、lxml解析库、案例实战）

schema约束 SAXP和DOM解析,案例 Dom4J xpath总结

Python爬虫-利用xpath解析爬取58二手房详细信息

xpath爬取58的二手房信息

学习笔记(22):第一章：数据提取与清洗策略-xpath语法与案例

python xpath图片爬取

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)