Python基础爬虫练习（深圳房产信息网站） - 代码天地

Python基础爬虫练习（深圳房产信息网站）

其他 2018-11-11 09:51:26 阅读次数: 0

网站url：https://shenzhen.qfang.com/sale/f1

# -*- coding: utf-8 -*-
"""
Created on Thu Oct 25 15:25:34 2018

@author: Belinda
"""
import requests
from lxml import etree
import csv
import time

def spider():
#定义爬虫头部
headers={'User-Agent':'Mozilla/5.0 (Window NT 10.0; WOW64)\ AppleWebKit/537.36 (KTML,like Gecko) Chrome/46.0.2490.80 Safari/537.36'}
pre_url='https://shenzhen.qfang.com/sale/f'
for i in range(1,100):#网页页面数为99,range(1,页面数+1)
html=requests.get(pre_url+str(i),headers=headers)
time.sleep(1)
selector=etree.HTML(html.text)
house_list=selector.xpath('//*[@id="cycleListings"]/ul/li')#用xpath方法定位元素
for house in house_list:
apartment=''.join(house.xpath('div[1]/p[1]/a/text()'))#去除列表两端的引号和括号，提取字段信息
house_layout=''.join(house.xpath('div[1]/p[2]/span[2]/text()'))
area=''.join(house.xpath('div[1]/p[2]/span[4]/text()'))
region=''.join(house.xpath('div[1]/p[3]/span[2]/a[1]/text()'))
total_price=''.join(house.xpath('div[2]/span[1]/text()'))
item=(apartment,house_layout,area,region,total_price)
print(item)#打印出每行的结果方便查看
writer.writerow(item)

if __name__=='__main__':
fp = open('./Qfang.csv', 'a+', encoding='utf-8', newline='')#写入csv文件
writer = csv.writer(fp)
writer.writerow(('apartment', 'house_layout','area','region', 'total_price'))#csv文件的每列的列表名
spider()
fp.close()
print("爬取结束！")

打开.spyder-p3文件下的对应Qfang.csv文件查看爬虫结果

一共2970条数据

猜你喜欢

转载自blog.csdn.net/qq_35309022/article/details/83443850

Python基础爬虫练习（深圳房产信息网站）

nodejs+vue+elementui房产信息网站

基于SSM的安居客房产信息网站(新房二手房租房)

房产信息

Python爬虫一步步抓取房产信息

安居客scrapy房产信息爬取到数据可视化(上)-scrapy爬虫

javaweb房产信息管理系统网站ssm和springboot框架mysql数据库idea开发

爬取雪球网上的房产信息

C/C++房产信息管理系统

GIS系统在房产信息平台中的作用

外卖信息网站

投标信息网站

生物信息网站介绍

把雪球网房产信息前三页存储到MySQL数据库

爬虫框架之Scrapy——爬取某招聘信息网站

爬虫---爬取拉钩信息网

个人想法-便民信息网站搭建

Python分类爬取医疗信息网站图片，存入数据库和本地

安居客scrapy房产信息爬取到数据可视化(下)-可视化代码安居客scrapy房产信息爬取到数据可视化(下)-可视化代码

GlidedSky爬虫网站练习基础1

Python练习三:爬虫练习,从一个提供免费代理的网站中爬取IP地址信息

Scrapy框架——CrawlSpider爬取某招聘信息网站

分类信息网站推广几种比较实用的方法

html写简单的个人信息网站入门

事业单位、公务员招聘信息网站

Django框架搭建的简易图书信息网站案例

基于SSM“校园通”学生折扣优惠信息网站

校园二手信息网站的设计与开发

Python爬虫：爬取网站电影信息

爬虫一：python获取网站信息

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)