scrapy爬取途牛网站旅游数据 - 代码天地

scrapy爬取途牛网站旅游数据

其他 2020-02-23 21:08:01 阅读次数: 0

描述：采取了scrapy框架对途牛网旅游数据进行了爬取，刚开始练手，所以只爬了四个字段用作测试，分别是景点名称、景点位置、景点开放时间、景点描述，爬取结果存的是json格式。
部分数据：
这里写图片描述
部分代码：

遇到的问题：start_urls是不能动态添加URL的，这个还需要研究，这里只是简单把所有待爬取的网址全扔进了start_urls里面，这是可行的，但是对网址的预处理就很耗时间了。然后是对汉字编码的处理，在scrapy中一开始传到json中的数据总是/uxxx类型的，这需要在pipeline.py、setting.py中都进行修改，具体修改如下：
在pipelines.py中，修改代码如下：

def __init__(self):
        self.file = codecs.open('items.json', 'wb', encoding='utf-8')
    #
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    #
    def spider_closed(self, spider):
        self.file.close()

在settings.py中，添加如下代码：

ITEM_PIPELINES = {
    'bdlv_spider.pipelines.BdlvSpiderPipeline': 800,
}

其中，BdlvSpiderPipeline是pipelines.py中的类名。

发布了117 篇原创文章 · 获赞 8 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/u014257192/article/details/77418366

scrapy爬取途牛网站旅游数据

python scrapy爬取网站数据一

使用scrapy爬取网站

scrapy爬取天天基金网站基金基础数据教程

怎样使用Scrapy爬取NVD网站上的数据

Python 爬取蚂蜂窝旅游攻略（+Scrapy框架+MySQL）

scrapy爬取动态数据

Scrapy全站数据爬取

scrapy图片数据爬取

Python爬取旅游网站数据机票酒店价格对比分析

python scrapy爬取网站数据二（scrapy使用详细介绍）

python scrapy爬取皇冠体育源码下载网站数据二（scrapy使用详细介绍）

scrapy爬取帅哥图片网站

scrapy爬虫爬取动态网站

scrapy爬取--腾讯社招的网站

scrapy爬取某网站小说

利用scrapy爬取需要登录的网站的数据（包含验证码的处理）--以爬取豆瓣网数据为例

途牛旅游系统架构的优化实践

scrapy框架用post 爬取网站数据的两种方法区别

利用scrapy爬取需要登录的网站的数据（包含验证码的处理）

Scrapy实战篇（七）之爬取爱基金网站基金业绩数据

用scrapy爬取小说网站，并保存到数据库

基于Scrapy框架爬取租房网站数据及可视化分析

Python爬取网站数据

scrapy爬取数据存入mongodb中

scrapy爬取数据存入mysql中

scrapy爬取数据存入表格中

scrapy 爬取数据时翻页专栏

Scrapy爬取中文数据的问题

scrapy爬取酒店评论数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)