Python之Scrapy初学问题集中（一） - 代码天地

Python之Scrapy初学问题集中（一）

其他 2020-05-01 10:09:23 阅读次数: 0

AttributeError: ‘FeedExporter’ object has no attribute ‘slot’
解决：因为当前需要写入的文件被占用，写不进去！关闭打开的 csv文件
爬取不到数据的原因之一
解决：没有伪装浏览器，缺少一个头文件，通过浏览器，复制一个user_Agent:{ } 的信息
例如

步骤：
1、打开常用的浏览器
2、按下f12 键之后刷新页面（按下f5），点击上标题栏中的 NetWork
3、将你复制的内容
交给自己设定的 header

header = {user-agent: "Mozilla/5.0 (Windows NT 10.0; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/69.0.3497.100 Safari/537.36"}

在这里插入图片描述

3、在scrapy爬取数据中出现UnicodeEncodeError: ‘charmap’ codec can’t encode characters in position xx: character maps to 错误

解决方法：

#连接数据库
        self.db_conn = MySQLdb.connect(db = db_name,
                                       host = host,
                                       user = user,
                                       password = password,
                                       charset = "utf8"      #不可以省略  而且这个写法是  “utf8”   不是“utf-8”
                                        )
        self.db_cursor = self.db_conn.cursor()  #得到游标

4、配备数据库时的问题
爬取数据放不到数据库中（查询字段数目和数据库表的数目不同）
MySQLdb._exceptions.OperationalError: (1136, “Column count doesn’t match value count at row 1”)

解决：查看数据库和SQL语句的字段是否匹配，还有py程序中的字段是否一致

5、MySQLdb._exceptions.DataError: (1406, “Data too long for column ‘up_date’ at row 1”)
解决：字段容量不足，就是表的字段存储空间不够，将字段的容量扩大即可

敲出亿行bug

原创文章 28 获赞 41 访问量 1027

关注私信

猜你喜欢

转载自blog.csdn.net/wenquan19960602/article/details/104680875

Python之Scrapy初学问题集中（一）

Python之Scrapy初学问题集中（三）：难道爬取的网站对我有意见！！！

Python之Scrapy初学问题集中（二）【爬取的数据为何数据库中没有？？（解决方案）】|【初级爬虫程序】

Python初学问题6

python初学问题5

Python3初学问题总结

Python初学问题记录

解决python初学问题TemplatesDoesNotExist

hibernate初学问题

unreal初学问题

nodeJS初学问题之退出http服务器

js初学问题整理

python之scrapy(一)

Docker初学问题记录

Java初学问题汇总—1

nodeJS初学问题之退出nodeJS终端命令行模式

python scrapy 爬虫初学

python解决数学问题

Python爬虫之Scrapy（一）

View初学问题随手记

初学python之（A+B问题）

数据结构之数学问题

算法练习之数学问题

算法很美之数学问题

数学建模之运筹学问题

数学问题之浓度计算

用Python解决了个数学问题

Python解决数学问题（Sympy ）

Python: 学习系列之四：有趣的经典数学问题

python之scrapy(一)基础和入门

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)