爬取链家二手房信息【爬虫模板】 - 代码天地

爬取链家二手房信息【爬虫模板】

其他 2021-11-28 12:46:25 阅读次数: 0

爬虫模板几乎一个样儿
提前安装pandas用于存储数据、requests处理URL资源、Bs4(BeautifulSoup4)提取数据、lxml读取网页

爬取链家二手房信息

# -*- coding: utf-8 -*-
# @Author  : LEHOSO
# @FileName: Lianjia2.py
# @Time    : 2021/10/11 16:55

import time

import pandas as pd
import requests
from bs4 import BeautifulSoup

# 表头
header = {
    
    
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30'
}
a = []


def get_info(url):
    wb_data = requests.get(url, headers=header)
    # 爬取整个网页
    soup = BeautifulSoup(wb_data.text, 'lxml')
    # 网页单个元素
    ranks = soup.select('div.totalPrice.totalPrice2 > span')
    title = soup.select('div.title > a')
    location = soup.select('div.flood > div > a')
    area = soup.select('div.flood > div > a:nth-child(3)')
    fllowInfo = soup.select('div.followInfo')
    # 存入进列表
    for ranks, titles, locaitons, areas, fllowInfos in zip(ranks, title, location, area, fllowInfo):
        data = {
    
    
            '价格': ranks.get_text().strip(),
            '标题': titles.get_text().strip(),
            '位置': locaitons.get_text().strip() + '-' + areas.get_text().strip(),
            '关注': fllowInfos.get_text().strip().split('/')[0],
            '距今发布日期': fllowInfos.get_text().strip().split('/')[1]
        }
        a.append(data)
        print(data)


if __name__ == '__main__':
    # 网址路径
    urls = [
        'https://cq.lianjia.com/ershoufang/'
    ]
    for url in urls:
        get_info(url)
        time.sleep(2)
    # pandas存入数据
    df_out = pd.DataFrame(a, columns=['价格', '标题', '位置', '关注', '距今发布日期'])
    #导出为xlsx格式
    df_out.to_excel('aaa.xlsx')

猜你喜欢

转载自blog.csdn.net/m0_52426915/article/details/121012054

爬取链家二手房信息【爬虫模板】

python 学习 - 爬虫入门练习爬取链家网二手房信息

爬虫练习三：爬取链家二手房信息

python爬虫爬取链家二手房信息

python+scrapy爬虫（爬取链家的二手房信息）

python 爬虫：链家二手房信息爬取练习

爬虫三：用xpath爬取链家网二手房信息

python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息

python爬虫之多线程爬取链家郑州郑东新区二手房信息

链家网二手房信息爬取（二）

python3爬虫（1）爬取链家二手房

python爬虫之链家郑州二手房爬取

【爬虫】链接二手房信息爬取

链家网二手房信息爬取（一）

44.scrapy爬取链家网站二手房信息-2

43.scrapy爬取链家网站二手房信息-1

90行代码爬取链家广州二手房相关信息

使用bs4爬取链家网的二手房信息

Python爬虫框架Scrapy入门（三）爬虫实战：爬取长沙链家二手房

Python爬虫新手入门教学（三）：爬取链家二手房数据

爬虫实例6：使用pyspider爬取链家网长春市南宁区的最近二手房更新信息

链家二手房爬虫

链家二手房楼盘爬虫

动态爬取链家二手房成交记录并保存至Excel

Python爬取链家二手房数据——重庆地区

链家广州二手房的数据与分析——爬取数据

爬取链家、贝壳、大唐二手房数据

Python 爬取链家二手房，我在北京买房的经历

利用xpath对链家深圳二手房爬取

python采集链家二手房信息

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)