爬虫：爬取某如长租公寓数据

其他 2019-01-26 17:41:21 阅读次数: 0

版权声明：本文为博主原创文章，如若转载请注明出处 https://blog.csdn.net/tonydz0523/article/details/86632857

爬虫策略

某如的数据爬取策略其实跟某壳的差不多，就不多说了，可以看看那篇：https://blog.csdn.net/tonydz0523/article/details/86631664

某如的价格是图片格式，不能正常获取，这里我们着重讲它的价格信息获取策略。。。。。

为了与某壳数据做对比，我们只爬取友家类型房源数据
某如的数据和某壳的数据有个不同点就是，它的临近地铁不是只有一个是周边多个地铁站点，所以爬取的数据好多是重复的，之后处理就好
价格信息为图片：图片地址在JavaScript代码中能找到，把图片下载下来使用tesseract进行图片识别（其实也就20张而已，把图片信息存入redis，直接匹配）
如下图，价格数据为图片格式：

图片链接在JavaScript代码中：

offset中内容是图片对应位置的数字。

使用re，获取图片链接和offset：

re.findall(r'var ROOM_PRICE = {"image":"(.*?)","offset":(.*?)};', resp.text):

使用tesseract获取图片上数字信息：

# 获取图片上的数字
def pic2code(url):
    pic_name = 'price1.png'
    request.urlretrieve(url, pic_name)
    img = Image.open(pic_name)
    im = img.convert("L")
    im_new = Image.new(im.mode, (340, 70), "black")   # 创建新的背景使图片有留白便于识别
    im_new.paste(im, (20, 20))
    code = pytesseract.image_to_string(im_new)   # 使用tesseract进行数字识别
    return code

获取的链接和对应数字排序存入redis数据库：

price_url = "http:"+m[0][0]
# 判断价格图片是否已经有识别过了，识别过了的直接使用即可
if r.hget('ziru_price', price_url):
    code = r.hget('ziru_price', price_url)
else:
    code = pic2code(price_url)
    rds.hset('ziru_price', price_url, code)

根据offset数据获取价格：

price_list = eval(m[0][1])
price = ''.join(list(code[j] for j in price_list[i]))

完整代码就不贴了，在这。

猜你喜欢

转载自blog.csdn.net/tonydz0523/article/details/86632857

爬虫：爬取某如长租公寓数据

爬虫：爬取某壳长租公寓数据

爬虫项目1[爬取小猪短租数据]

「爬虫」从某网站爬取数据

python爬虫-之前接的一家长租公寓的项目

python爬虫-爬取爱情公寓电影（2018）豆瓣短评并数据分析

蛋壳公寓斥资2亿美元全资收购长租公寓运营商爱上租

疫情下的长租公寓：蛋壳们的“生死考”

疯狂的长租公寓：自如、蛋壳们2020的生死决战

长租公寓全员「戒掉」租金贷会怎样？

2023年长租公寓行业研究报告

python 爬虫爬取某网站的漫画

爬虫爬取某网站图片

Python：好租网商务楼数据爬取

蛋壳再陷风波，长租公寓们如何才能“长”久？

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

【爬虫】爬取某彩票网站的历史数据，并进行分析

Python爬虫—爬取某网站上面所有的世界港口信息数据

Python爬虫入门 | 5 爬取小猪短租租房信息

爬取网站小猪短租的少量信息及详细介绍--爬虫案例篇

Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租

某鱼直播数据全站爬取

爬取小猪短租网信息

潘石屹：长租公寓租金就是翻两番开发商还是赔钱的

10月北上广长租公寓租金下降租房的春天要来了吗| Mob Insight

公募REITs落地前，长租公寓资产证券化浪潮涌动

资金链告急？长租公寓第一股深陷投诉漩涡 || 深度

爬虫爬取某数字app的房屋信息

Python爬虫项目--爬取某宝男装信息

爬虫Spider--爬取京东某产品的评价

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)