爬取安居客新房(urllib+bs4) - 代码天地

爬取安居客新房(urllib+bs4)

其他 2019-07-06 01:20:30 阅读次数: 0

简单做了个脚本，将房源写入json文件
代码注释很全，不做解释了。
import json
from urllib import request,parse
import re
from lxml import etree
from bs4 import BeautifulSoup,element

def get_url():
“”"
处理url地址
:param url: 初始url模板
:param headers: 请求头
:return: None
“”"
page = int(input(‘请输入页数：’))
for i in range(1,page+1):
url = ‘https://bj.fang.anjuke.com/loupan/all/p{}/’.format(i)
# 执行解析
parse(url,headers,i)

def parse(url,headers,i):
“”"
数据采集
:param url: 请求地址
:param headers: 请求头
:return: None
“”"
# 构造请求
req = request.Request(url=url,headers=headers)
# 发起请求
response = request.urlopen(req)
# 获得响应
res = response.read().decode(“utf-8”)
# bs4 解析
soup = BeautifulSoup(res,‘lxml’)
content = soup.select(’.item-mod’)

lis = []
for c in content:
    # 将内容格式化，方便写入json文件
    # 此处的判断是由于筛选条件的标签属性和我们数据相似，意外取了出来
    # 我们做了简单处理
    dic = {}
    # 名字
    title = c.select('.infos a h3 .items-name')
    if len(title)==0:
        pass
    else:
        title = title[0].get_text()
    # 地址
    address = c.select('.infos .address span')
    if len(title)==0:
        pass
    else:
        address = address[0].get_text()
    # 户型
    huxing = c.select('.infos .huxing span')
    if len(huxing)==0:
        pass
    else:
        huxing = huxing[0].get_text()
    # 均价
    average_price = c.select('.favor-pos span')
    if len(average_price)==0:
        average_price = '售价待定'
    else:
        average_price = average_price[0].get_text()
    dic['title'] = title
    dic['address'] = address
    dic['huxing'] = huxing
    dic['average_price'] = average_price

    lis.append(dic)
# 写入json 文件
json.dump(lis,open('anjuke'+str(i)+'.json','a',encoding="utf-8"),ensure_ascii=False,indent=4)

if name == “main”:
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.16 Safari/537.36’,
}
get_url()

猜你喜欢

转载自blog.csdn.net/weixin_44220464/article/details/94470215

爬取安居客新房(urllib+bs4)

安居客新房信息爬取

爬取安居客长沙新房的位置、户型、面积等信息。

用bs4和urllib 爬取视频

爬取安居客住房信息

PyCharm+Scrapy爬取安居客楼盘信息

安居客二手房信息爬取

scrapy实例：爬取安居客租房信息

爬取安居客上的优质业务员信息

Python爬取安居客经纪人信息

python爬取深圳安居客租房信息

爬取安居客指定市的所有小区信息

爬取安居客租房数字乱码解决

python爬取安居客储存到csv或者mongo

Python requests+BeautifulSoup 采集安居客_新房信息

Python爬虫：爬取京东商品评论(处理json) urllib3+bs4+sqlite3

bs4爬取网站图片

bs4-爬取小说

BS4爬取小说内容

bs4爬取网页基础

爬取安居客上住房信息的简单爬虫，并存储为表格文件

Python 如何通过网络爬虫简单爬取“安居客”网站的租房信息

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

python3 爬虫 urllib +采用bs4（三）批量爬取慕课网免费课程及课程详细章节信息

房天下新房信息爬取

python爬取链家新房数据

bs4 爬取网页数据(一)

爬虫--爬取网页图片--bs4

bs4爬取漫画并写入TXT文档

BS4_爬取豆瓣电影Top250

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)