scrapy爬取酒店评论数据

其他 2018-10-10 16:40:00 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明转自 Scofield's blog[http://blog.csdn.net/scotfield_msn] https://blog.csdn.net/Scotfield_msn/article/details/79107423

scrapy爬取酒店评论数据

代码 here：GitHub：scrapy_hotel_review

采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务，需要一些hotel reviews, 选择从www.booking.com搞一点数据来。
根据主页显示总共有20个城市from diferrent countries，每个城市下有若干个酒店，每个酒店下若干条评论。

〇、数据源介绍

数据源：www.booking.com
具体：

所有的城市：

某个城市的酒店列表：

某个酒店的评论：

一、爬取数据项：

设定一条记录有如下字段：

目标酒店名target
分数score
总体评价overall_comment
正评论positive_comment
负评论negative_comment
入住日期date
城市名city_name

用CSV文件保存with seperator “\t”.

二、目录介绍：

-hotel_review_booking：hotel_data数据文件
  -hotel_review_booking：scrapy理解的项目目录
        -hotel_review_booking：scrapy的真正项目目录
        -entrypoint
        ……

三、流程：四步：

新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

四、url分析：

略……

五、代码提示：

因为酒店列表不好直接显示页数，所以采取半人工手段标记页数……
日期date: 使用正则匹配。

pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'
pattern_compiled = re.compile(pattern)
其他也没啥的，就是scrapy的使用上，纯经验主义。

猜你喜欢

转载自blog.csdn.net/Scotfield_msn/article/details/79107423

scrapy爬取酒店评论数据

动态爬取，酒店评论

爬取艺龙网站酒店评论+

爬取艺龙酒店评论

Scrapy爬取猫眼电影评论

利用scrapy爬取艺龙评论

Scrapy爬取网易云音乐和评论（五、评论）

数据采集（七）：爬取豆瓣电影评论（scrapy+模拟登陆）

python爬取携程酒店数据

scrapy爬取动态数据

Scrapy全站数据爬取

scrapy图片数据爬取

scrapy 爬取天猫淘宝的某个商品评论

Scrapy爬取QQ音乐、评论、下载、歌曲、歌词

scrapy 爬取淘宝商品评论信息

爬取酒店信息

Scrapy爬取网易云音乐和评论（三、爬取歌手）

全国酒店评论数据

爬取携程酒店评论-Selenium-火狐浏览器-BeautifulSoup

Java数据爬取——爬取携程酒店数据（一） Java数据爬取——爬取携程酒店数据（一）

Scrapy爬取网易云音乐和评论（二、Scrapy框架每个模块的作用）

python scrapy爬取网站数据一

scrapy爬取数据存入表格中

scrapy爬取数据存入mongodb中

scrapy爬取数据存入mysql中

scrapy 爬取数据时翻页专栏

Scrapy爬取中文数据的问题

如何提升scrapy爬取数据的效率

Scrapy爬取网页数据

scrapy爬取伯乐在线文章数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)