爬虫学习之BeautifuSoup爬取58租房数据 - 代码天地

爬虫学习之BeautifuSoup爬取58租房数据

其他 2018-06-25 23:46:55 阅读次数: 2

周末了有点累，不想看别的书，学习下爬虫放松一下，简单了解了下BeautifulSoup库和Requests库，用之爬取58同城租房数据，代码较简单，才初学还有很多待完善地方，大神勿喷，贴出来仅为记录一下，写完博客打把农药睡觉。

这个程序设置了爬取页数为3页，为了反爬，爬取每一页间隔时间简单设置为2秒。代码如下：

import requests
from bs4 import BeautifulSoup
import time

#请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                 'Chrome/49.0.2623.112 Safari/537.36'}
#获取详情页链接
def get_links(url):
    web_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    links = soup.select('.des  h2  a')
    for link in links:
        href = link.get("href")
        get_info(href)


#获取详情页信息
def get_info(url):
    if(url is None):
        return
    else:

            web_data = requests.get(url, headers=headers)
            soup = BeautifulSoup(web_data.text, 'lxml')
            tittles = soup.select('body > div.main-wrap > div.house-title > h1')
            prices = soup.select(
            'body > div.main-wrap > div.house-basic-info > div.house-basic-right.fr > div.house-basic-desc > div.house-desc-item.fl.c_333 > div > span.c_ff552e > b')
            areas = soup.select(
            'body > div.main-wrap > div.house-basic-info > div.house-basic-right.fr > div.house-basic-desc > div.house-desc-item.fl.c_333 > ul > li:nth-of-type(2) > span:nth-of-type(2)')
            for tittle,price,area in zip(tittles,prices,areas):
                data = {
                    '房屋名称': tittle.get_text().strip(),
                    '价格': price.get_text().strip(),
                    '面积': area.get_text().strip(),
                }
                print(data)
if __name__ == '__main__':
    urls = ['http://cx.58.com/chuzu/pn{}'.format(number) for number in range(1,3)]
    fileName = 'D:/58.json'
    for single_url in urls:
        get_links(single_url)
        time.sleep(2)

没有保存到文件，只是简单的print，运行效果部分截图如下：

猜你喜欢

转载自blog.csdn.net/cskywit/article/details/80779671

爬虫学习之BeautifuSoup爬取58租房数据

爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息

58同城，租房信息爬取

使用爬虫scrapy库爬取58同城出租房的联系方式地址

python3爬虫-爬取58同城上所有城市的租房信息

python爬虫：找房助手V1.0-爬取58同城租房信息

爬虫学习之15：多进程爬取58二手交易市场数据保存到mongodb，并实现简单断点续爬

用selenium爬取58同城租房信息（万级数据）

Python3爬取58同城租房数据，完美解决字体加密

xpath案例爬取58出租房源信息&解析下载图片数据&乱码问题

爬虫之 beautifusoup4

Python爬取租房数据实例，据说可以入门爬虫的小案例！

BeautifuSoup库爬取美女图片

爬虫之爬取天眼查数据

爬虫之异步爬取加载数据

python爬虫(一) 爬取北京短租房信息

Python爬虫之路-爬取北、上、广租房信息

python爬虫58同城租房

Scrapy实战篇（九）之爬取链家网天津租房数据

python学习之beautifusoup篇

python爬虫学习（十二）xpath解析爬取58二手房

【Web Scraper教程05】(含视频演示)Web Scraper爬虫爬取"58同城数据"

《爬虫学习》（五）（爬虫实战之爬取天气信息）

使用Scrapy框架爬取58同城的出租房信息

Python 使用selenium爬取58网站，租房详情信息

爬虫学习之11：爬取豆瓣电影TOP250并存入数据库

Python爬虫爬取豆瓣电影之数据提取值xpath和lxml模块的学习

python爬虫学习笔记(三)-爬取数据之urllib库

爬取链家北京租房数据并做简单分析

jsoup多级爬取链家租房数据

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)