爬虫之链家网 - 代码天地

爬虫之链家网

其他 2020-01-28 11:34:14 阅读次数: 0

链家网爬取
如何查看头文件看200

from lxml import etree
import requests
import csv
import time
# 定义爬取和解析数据的函数
#为了防止被服务器反爬虫禁止  所以定义头部
def spider():
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
    pre_url='https://cc.lianjia.com/ershoufang/pg'
    #防止爬取速度过快
    i=0
    for x in range(1,11):
        html=requests.get(pre_url+str(x),headers=headers)
        html.encoding = 'utf-8'
        time.sleep(5)
        selector=etree.HTML(html.text)
        house_list=selector.xpath('//*[@id="content"]/div[1]/ul/li')
        for house in house_list:
            #apartment=house.xpath('div[2]/div[3]/div/a/text()')[0]
            apartment=house.xpath('div[1]/div[2]/div/a[1]/text()')[0]
            house_more_info=house.xpath('div[1]/div[3]/div/text()')[0]
            #print house_more_info  3室1厅 | 163.85平米 | 西南 | 精装 | 高楼层(共32层) | 2003年建 | 塔楼
            house_more_info_split=house_more_info.split(' | ')    # 0是
            house_layout=house_more_info_split[0]
            area=house_more_info_split[1]
            region=house_more_info_split[2]
            # print
            price=house.xpath('div[1]/div[6]/div[1]/span/text()')[0]+'万'
            item=[apartment,house_layout,area,region,price]
            data_write(item)
            apartment=house.xpath('div[1]/div[1]/a/text()')
            i=i+1
            print(i,'正在抓取',apartment)
def data_write(item):
        #防止添加空行  newline
    with open('ljian_ershoufang.csv','w',encoding='utf-8',newline='')as csvfile:
        writer=csv.writer(csvfile)
        writer.writerow(item)
spider()

猜你喜欢

转载自www.cnblogs.com/zhenqk/p/12237531.html

爬虫之链家网

Nodejs爬虫实战项目之链家

Python3网络爬虫之requests静态爬虫：链家深圳二手房

python关于链家网房子的一次爬虫

python爬虫-selenium爬取链家网房源信息

爬虫练习－－链家

链家新房爬虫

链家网

链家网2

爬虫08-链家

python爬虫之爬取链家658家二手房源

利用Python爬虫和Tableau分析链家网二手房信息

python 学习 - 爬虫入门练习爬取链家网二手房信息

python链家网异步IO爬虫asyncio+aiohttp+aiomysql异步存入数据库

python链家网异步IO爬虫，使用asyncio、aiohttp和aiomysql

python爬虫—使用bs4爬取链家网的房源信息

python链家网高并发异步爬虫and异步存入数据

链家网爬虫同步VS异步执行时间对比

爬虫三：用xpath爬取链家网二手房信息

python爬虫抓取链家租房数据

爬虫链家网站获取信息

爬虫 Scrapy框架"链家爬取"

python网络爬虫之图片链家在技术.seleninum和PhantonJS

python爬虫之链家郑州二手房爬取

多线程抓取链家网数据

链家网可视化

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

Python的scrapy之爬取链家网房价信息并保存到本地

Scrapy实战篇（九）之爬取链家网天津租房数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)