利用Scrapy框架爬取数据保存成excel出现乱码的解决办法 - 代码天地

利用Scrapy框架爬取数据保存成excel出现乱码的解决办法

其他 2019-04-01 16:14:35 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zhaomengszu/article/details/88658108

Scrapy是一个很好的爬虫框架，但是在我们把爬取的数据保存成csv的时候，我们常常会发现，保存下来的数据是乱码，网上也搜索了很多中解决办法，但是很多都是解决不了，先总结下来。

我们在命令行里执行Scrapy框架的时候的步骤如下：

1，首先我们先进入我们spider的目录

cd /Users/zhaomeng/licaiproduct/licaiproduct/spiders

2，执行爬虫文件

scrapy crawl licaiproduct

但是我们常常想把数据保存为excel的格式，所以我们常常会使用如下的办法：

1.使用命令行

scrapy crawl licaiproduct -o XXXX.csv -s FEED_EXPORT_ENCIDING=utf-8,例如这个博客所示：解决办法，但是我尝试里该篇博客的第一个方法后，打开后还是出现了乱码，所以该篇博客第一种解决办法并不能很好的解决。

2.使用第三方软件修改编码格式

notepad2打开，选择编码ANSI，保存，再用excel打开就是正常的了，（没测试，感觉很鸡肋）

3.使用Scrapy框架的优势，代码生成excel。

很多博客都有所涉及，链接如下：代码生成（没测试，很麻烦）

最后的解决办法

在创建项目的settings.py中，添加如下代码
FEED_EXPORT_ENCODING = 'gb18030'

即可解决乱码问题。

猜你喜欢

转载自blog.csdn.net/zhaomengszu/article/details/88658108

利用Scrapy框架爬取数据保存成excel出现乱码的解决办法

利用Scrapy框架爬取csdn博客数据，并保存到excel

Scrapy爬取数据[scrapy.core.scraper] ERROR: Spider error processing解决办法

关于爬取新浪首页显示乱码的解决办法

爬虫（requests）爬取数据爬到一半时乱码了的解决办法

Navicat for mysql 中文保存出现乱码的解决办法

pyspider爬网页出现中文乱码的解决办法

pandas 之 to_csv 保存数据出现中文乱码问题及解决办法

Python pandas库DataFrame的to_csv保存数据出现中文乱码问题及解决办法

利用scrapy框架进行数据的爬取

scrapy保存的csv数据出现乱码怎么解决

利用scrapy框架爬取淘宝

Scrapy框架的学习(2.scrapy入门，简单爬取页面，并使用管道(pipelines)保存数据)

mysql保存中文乱码的解决办法

node爬取网页gbk2313乱码解决办法

scrapy框架爬取大乐透数据

scrapy框架之全站数据的爬取

Scrapy框架----pipeline---------数据保存EXCEL

scrapy框架爬取图片保存到本地或mongodb的写法

在使用scrapy框架爬取sina时，常见保存

scrapy爬虫框架（三）：爬取壁纸保存并命名

pl/sql 出现乱码解决办法 ????

python爬虫出现乱码的解决办法

关于网页出现乱码解决办法

java中出现乱码的解决办法

字符乱码出现的原因及解决办法

python爬虫-利用scrapy框架完成天天书屋内容爬取，并保存本地txt

爬取知乎碰到的问题-----------------------3、关于url中出现sign的解决办法

Python利用scrapy框架，爬取大众点评部分商铺数据~

ie浏览器下载门户网站的excel文档出现乱码现象的解决办法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)