xpath-房价爬取 - 代码天地

xpath-房价爬取

其他 2019-08-25 16:48:06 阅读次数: 0

xpath

xpath两种使用方式

和bs类似，一种是调用本地资源，一种是网络资源

etree.parse(filePath)

etree.HTML('page_text')

xpath表达式

层级：/一个层级 //多个层级（注意如果从html开始取，要在前面加一个/ 写成/html，局部./li)

属性定位:类似//div[@class='zx']

索引取值: 类似p[3]（注意xpath中的索引，是从1开始的）
取文本:/text()直系 //text()取所有
取属性:类似/@src

xpath实战

功能：爬取安居客某区域所有的房价信息，最终以条形图的方式显示

import requests
from lxml import etree
import matplotlib.pyplot as plt

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
all_price=[]
def work(count):
    page=1
    while page<=count:
        url=f"https://hangzhou.anjuke.com/sale/yuhang-q-hzpingyao/p{page}/#filtersort"
        res=requests.get(url=url,headers=headers).text
        tree=etree.HTML(res)
        all_house=tree.xpath("//div[@class='sale-left']/ul/li")
        for i in all_house:
            #截取有效的价格
            price=i.xpath("./div[@class='pro-price']/span[2]/text()")[0][:-4]
            price=int(price)
            #价格添加到list中
            all_price.append(price)
            print(price)
        page+=1
    print(all_price)

def show():
    #画图
    plt.hist(all_price, bins=50)
    plt.show()
    print(len(all_price))

if __name__ == '__main__':
    #爬取25页
    work(25)
    show()

如图

但是安居客有部分数据感觉并不可靠

猜你喜欢

转载自www.cnblogs.com/zx125/p/11408332.html

xpath-房价爬取

学习笔记(03):21天搞定分布式Python网络爬虫-xpath-实战-爬取瓜子二手车网站（1）...

学习笔记(02):21天搞定分布式Python网络爬虫-xpath-实战-爬取瓜子二手车网站（1）...

xpath-总结

数据采集（四）：用XPath爬取链家网房价数据

xpath-语法基本-0223

利用BeautifulSoup和Xpath爬取赶集网北京二手房房价信息

xpath；；利用xpath爬取电影天堂

利用xpath爬取网页

python xpath图片爬取

爬取千千小说 -- xpath

使用xpath爬取数据

python网络爬虫爬取房价信息

R语言爬虫、房价爬取

爬虫——爬取贵阳房价（Python实现）

xpath-了解xpath语言-下载xpath_helper工具

xpath 语法运用实例【爬取boos】

php XPath爬取小说站内容

Python爬虫-爬取扇贝单词(Xpath)

xpath爬取mooc网课程

xpath爬取mooc网课程

XPath之电影天堂数据爬取

晋江年下文爬取【xpath】

使用xpath技术爬取段子网

使用XPath爬取网页数据

xpath和beautifulsoup爬取网页的demo

爬虫学习：xpath爬取评书网

使用XPath爬取西刺代理

使用etree与xpath爬取Discuz论坛

使用xpath爬取壁纸图片

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)