scrapy爬取爱上租网站的房源信息（一） - 代码天地

scrapy爬取爱上租网站的房源信息（一）

编程语言 2019-01-11 20:38:02 阅读次数: 0

爬取的页面如下：爱上租的租房页面

需要爬取该页面下所有房间的基本信息

scrapy框架的安装和使用教程参考以下链接 http://www.scrapyd.cn/doc/178.html

首先在spiders目录下新建一个house_spider.py，将上面爬取页面的链接添加到start_urls中

此处可打印下看是否请求到页面

 def parse(self, response):
        print(response.body)

运行结果如下，即已经请求到页面

scrapy运行一般都是在终端下输入 scrapy crawl 项目名运行，每次输入很是麻烦，提供一个方法，可以在项目目录下新建一个entrypoint.py文件，加上以下内容，“aishangzu”是爬虫名，在spider.py中设置的，每次运行entrypoint.py即可

from scrapy import cmdline

cmdline.execute(['scrapy', 'crawl', 'aishangzu'])

scrapy框架内部处理了对页面的解析，这也是该框架最方便的一个地方

接下来分析所要爬取的数据的标签，可以看到所需信息在class=“list-item”标签下第2个div的a标签下的span标签

使用xpath定位所需信息，由于要获取该页面下的所有房间信息，因此采用了循环遍历

def parse(self, response):
    summ = response.xpath('//div[@class="list-item"]')
    num = len(summ)
    for i in range(num):
        title =summ.xpath('//div[@class="listitem"]/div[2]/div[1]/a/span/text()').extract([i]    # 房名

地理位置、价格等其他信息同样可通过xpath来获取，相比BeautifulSoup速度快很多

上面仅获取了第一页的数据，还要获取多页的数据

找到下一页的链接

scrapy中提供了请求下一页的方法，同样需要使用xpath获取到链接

 next_page = response.xpath('//div[@class="pagination"]/a[last()]/@href').extract_first()     #获取下一页的链接
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

这样，所有房源的基本信息都获取到了，接下来就是怎么把爬取的数据存到数据库中

请看下一节

猜你喜欢

转载自blog.csdn.net/qq_36135258/article/details/86297264

scrapy爬取爱上租网站的房源信息（一）

#scrapy实战# 爬取招标网站信息(一)

python学习：爬取房源信息

爬取小猪短租网信息

python scrapy爬取网站数据一

Python 使用selenium爬取房天下网站，房源动态信息

Python 使用selenium爬取房天下网站，新房房源详情信息

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

爬取网站小猪短租的少量信息及详细介绍--爬虫案例篇

python-scrapy爬取某招聘网站信息(一)

Scrapy框架——CrawlSpider爬取某招聘信息网站

Scrapy ：爬取培训网站讲师信息

使用Scrapy爬取图书网站信息

使用scrapy爬取网站

我爱我家房源信息爬取

上海安居客房源信息采集与爬取

如何爬取链家网页房源信息

江寓租房挂牌房源信息爬取

江寓租房挂牌房源信息爬取

建方公寓挂牌房源信息爬取

python爬虫-selenium爬取链家网房源信息

Python 使用selenium爬取方天下，房源评论信息

scrapy爬取小说(一）

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

scrapy爬取帅哥图片网站

scrapy爬虫爬取动态网站

scrapy爬取--腾讯社招的网站

scrapy爬取某网站小说

爬虫框架之Scrapy——爬取某招聘信息网站

利用scrapy爬取某汽车网站经销商店信息

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)