将爬取的数据保存到mysql中 - 代码天地

将爬取的数据保存到mysql中

其他 2018-10-18 12:01:44 阅读次数: 0

为了把数据保存到mysql费了很多周折，早上再来折腾，终于折腾好了

安装数据库

1、pip install pymysql(根据版本来装)

2、创建数据

打开终端键入mysql -u root -p 回车输入密码

create database scrapy (我新建的数据库名称为scrapy)

3、创建表

use scrapy;

create table xiaohua (name varchar(200) ,url varchar(100));

数据库部分就酱紫啦

4、编写pipeline

5、编写setting

6、编写spider文件

7、爬取数据保存到mysql

scrapy crawl xhwang

之前报错为2018-10-18 09:05:50 [scrapy.log] ERROR: (1241, 'Operand should contain 1 column(s)')

因为我的spider代码中是这样

附一张网上找到的答案

错误原因：item中的结果为{'name':[xxx,xxxx,xxxx,xxx,xxxxxxx,xxxxx],'url':[yyy,yyy,yy,y,yy,y,y,y,y,]},这种类型的数据

更正为6下面代码后出现如下会有重复

然后又查了下原因终于解决问题之所在

在图上可以看出，爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据。那为什么会造成这种结果呢？

其原因是由于spider的速率比较快，scrapy操作数据库相对较慢，导致pipeline中的方法调用较慢，当一个变量正在处理的时候

一个新的变量过来，之前的变量值就会被覆盖了，解决方法是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改。

在pipeline中修改如下代码

完成以上设定再来爬取，OK 大功告成（截取部分）

猜你喜欢

转载自www.cnblogs.com/python2687806834/p/9808961.html

将爬取的数据保存到mysql中

将scrapy爬取数据保存到mysql数据库和mongodb数据库

将python中爬取的数据保存到数据库中

将爬取的数据保存到Excel表格

scrapy爬取数据保存到mysql数据库

scrapy 爬取数据保存到mysql的基本配置

爬取伯乐在线文章（四）将爬取结果保存到MySQL

scrapy 爬取的数据保存到exce表格中

elasticsearch学习与把爬取的数据保存到es中

Python如何爬取数据保存到Excel中？

Python Scrapy爬取并保存到Mysql

将csdn的文章爬取，并将图片保存到本地

python爬取网贷之家平台数据保存到mysql数据库

python之scrapy爬取数据保存到mysql数据库

使用scrapy爬取红袖添香的小说信息并保存到本地的mysql中

python使用scrapy爬取数据并保存到mysql以及遇到的一些问题

Scrapy 爬取快代理免费代理ip保存到文件和MySQL数据库

Python爬虫实战：基于Scrapy的淘宝登陆后实现数据爬取并保存到Mysql

Python爬取豆瓣电影Top250（数据保存到Excel中）

使用jsoup爬取网页信息，保存到txt中

使用selenium登录网站并爬取数据保存到excel

将数据保存到内存DC中

将redis中数据保存到MongoDB

pymysql 使用twisted异步插入数据库：基于crawlspider爬取内容保存到本地mysql数据库

Python爬虫实战：Scrapy爬取京东商品数据保存到Mysql且重命名下载商品图片

scrapy----将数据保存到MySQL数据库中

Scrapy爬取并保存到TXT文件

爬取图片并保存到本地

Java 爬取网页并保存到本地

爬取NMPA化妆品生产许可信息数据，保存到excel中（requests初体验）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)