爬虫链家网站获取信息 - 代码天地

爬虫链家网站获取信息

其他 2018-10-14 11:50:18 阅读次数: 0

import re
import json
from urllib.request import urlopen
import ssl
# ⼲掉数字签名证书
ssl._create_default_https_context = ssl._create_unverified_context

ershoufang_url='https://bj.lianjia.com/ershoufang/rs/'

def get_html_content(url):
    html=urlopen(url)
    content=html.read().decode('utf-8')
    # print(content)
    return content
def chuli(content):
    obj=re.compile(r'<span.*?>关注</span></div><div.*?><span></span></div><div.*?><span></span></div><div class="price"><span>(?P<price>.*?)</span>万</div></a><a.*?>(?P<title>.*?)</a><div class="info">.*?<span>/</span>.*?<span>/</span>(?P<pingmi>.*?)<span>/</span>(?P<fangxiang>.*?)<span>/</span>(?P<zhuangxiu>.*?)</div><div .*?>(?:<span .*?>.*?</span>)?<span.*?>(?P<fangben>.*?)</span>',re.S)
    it=obj.finditer(content)
    for el in it:
        yield {
            '价格:':el.group('price')+'万',
            '房屋信息:':el.group('title'),
            '平米数:':el.group('pingmi'),
            '朝向':el.group('fangxiang'),
            '装修:':el.group('zhuangxiu').replace('<span>/</span>',','),
            '房本信息:':el.group('fangben').replace('随时看房','无信息').replace('关注','无信息'),
        }
def xieru(jieguo):
    txt=json.dumps(jieguo,ensure_ascii=False)
    with open('houseInfo',mode='a',encoding='utf-8')as f:
        f.write(txt+'\n')

def main():
    for i in range(1,101):
        if i ==1:
            new_content = get_html_content(ershoufang_url)
        else:
            dong_url='https://bj.lianjia.com/ershoufang/pg%d/'%i
            new_content = get_html_content(dong_url)
        ret = chuli(new_content)
        for el in ret:
            xieru(el)
            print(el)

if __name__=='__main__':
    main()

猜你喜欢

转载自www.cnblogs.com/PythonMrChu/p/9785661.html

爬虫链家网站获取信息

kubectl 获取信息

获取信息的方式

Servlet--获取信息

命令获取信息的方法

初识python爬虫 Python网络数据采集1.0 BeautifulSoup通过网站css爬取信息

Python爬虫小记：模拟登录学院成绩查询网站抓取信息的过程分析与实现

python requests爬虫使用lxml解析HTML获取信息不对等的问题

(转)Python新手写出漂亮的爬虫代码1——从html获取信息

python3爬虫抓取链家上海租房信息

Python中使用Scrapy爬虫抓取链家房价信息

python爬虫-selenium爬取链家网房源信息

爬取链家网站的北京租房信息

实战—爬取网站链家租房信息

爬虫笔记3-提取信息

爬虫一：python获取网站信息

爬虫练习－－链家

链家新房爬虫

postman接口测试：获取信息

jmeter接口测试-获取信息

zabbix 通过key（键值）获取信息

鼠标点击位置获取信息

ServletRequest--从html页面获取信息

运用代理IP获取信息

HR开发获取信息类型数据

AspectJ - ProceedingJoinPoint - Signature 中的：获取信息

web后台解析apk获取信息

从身份证获取信息

Jmeter 获取信息函数助手

Python获取信息并保存MongoDB实例

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)