链家广州二手房的数据与分析——爬取数据 - 代码天地

链家广州二手房的数据与分析——爬取数据

其他 2019-06-07 12:44:47 阅读次数: 0

之前在博客分享了利用 R 和 rvest 包爬虫的基础方法。现在就来实战一下：爬取链家网广州 40,000+ 套二手房的数据。
lianjia homepage

之前在 Web Scraping with R 说过的爬虫方法在这篇中就不在赘述了。这里就分享怎么样爬取网站中翻页的数据。

>> Web Scraping across Multiple Pages

首先观察翻页页面的 url 规律，比如广州链家二手房数据：

第一页：https://gz.lianjia.com/ershoufang/

第二页：https://gz.lianjia.com/ershoufang/pg2/

第三页：https://gz.lianjia.com/ershoufang/pg3/

......

由此可推断，url 为 "https://gz.lianjia.com/ershoufang/pg" + 页码

1) 假设我们需要爬去第 1 页到第 100 页的房屋总价。那么我们可以先尝试爬取第一页的数据，并封装成一个函数.

getHouseInfo <- function(pageNum, urlWithoutPageNum) {
  url <- paste0(urlWithoutPageNum, pageNum)
  webpage <- read_html(url,encoding="UTF-8")
  total_price_data_html <- html_nodes(webpage,'.totalPrice span')
  total_price_data <- html_text(total_price_data_html)
  data.frame(totalprice = total_price_data)
}

2) 然后利用上述的函数循环爬取第 1 页到第 100 页的数据，并将多页的数据合并成一个 data frame

url <- "https://gz.lianjia.com/ershoufang/pg"
houseInfo <- data.frame()
for (ii in 1:1553){
  houseInfo <- rbind(houseInfo, getHouseInfo(ii, url))
}

>> Sample Code

知道如何爬取翻页的数据后我们就可以尝试完整的爬取广州链家网上 4w+ 套二手房的详细信息（包括区域，小区，几室几厅，有无电梯等等）了。

数据量比较大，爬取数据需要一些时间。爬取完毕如果要保存数据需要注意选择适合的编码，不然容易乱码。提供一个可在 Mac Excel 打开的 cvs 格式。

猜你喜欢

转载自www.cnblogs.com/yukiwu/p/10975337.html

链家广州二手房的数据与分析——爬取数据

链家广州二手房的数据与分析——数据分析1

链家广州二手房的数据与分析——数据分析2

Python爬取链家二手房数据——重庆地区

爬取链家、贝壳、大唐二手房数据

90行代码爬取链家广州二手房相关信息

Python爬虫新手入门教学（三）：爬取链家二手房数据

Python教你一招，爬取链家二手房并做数据可视化分析

实时爬取二手房数据

数据分析：pandas分析链家网二手房信息

链家北京二手房数据分析

链家网二手房信息爬取（二）

动态爬取链家二手房成交记录并保存至Excel

链家网二手房信息爬取（一）

44.scrapy爬取链家网站二手房信息-2

43.scrapy爬取链家网站二手房信息-1

python 学习 - 爬虫入门练习爬取链家网二手房信息

爬虫练习三：爬取链家二手房信息

python3爬虫（1）爬取链家二手房

python爬虫爬取链家二手房信息

python+scrapy爬虫（爬取链家的二手房信息）

python 爬虫：链家二手房信息爬取练习

爬虫三：用xpath爬取链家网二手房信息

使用bs4爬取链家网的二手房信息

python爬虫之链家郑州二手房爬取

Python 爬取链家二手房，我在北京买房的经历

利用xpath对链家深圳二手房爬取

爬取链家二手房信息【爬虫模板】

链家网上关于福州二手房每平方米价格的爬取及数据处理

Python爬取链家网获取二手房数据并调用高德api获得经纬度

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)