Python爬虫案例2：获取抽屉网页所有的新闻标题并保存到csv - 代码天地

Python爬虫案例2：获取抽屉网页所有的新闻标题并保存到csv

其他 2018-10-30 17:47:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154986

1、先建立爬虫项目

1）进入目标目录：cd 目标目录

2）建立项目：scrapy startproject 爬虫项目名称

3）进入爬虫项目目录，cd 爬虫项目所在的文件夹

4）建立爬虫：scrapy genspider 爬虫名称网址

具体可参考豆瓣的爬虫博文。

2、编写爬虫程序

有五个注意和修改的地方：

1）编写spider程序，我的案例是spider的test.py的文件中

2）新建一个一个去重url的类duplication.py，并需要在settings.py中导入

3）修改items.py

4）修改pipeline.py，并需要在settings.py中导入

5）编写运行爬虫的程序，我的是runspider.py

6）对应的修改settings.py：导入去重类、pipline类、设置DEPTH_LIMIT

完整的项目目录如下：

640?wx_fmt=png&wxfrom=5&wx_lazy=1

1）爬虫文件test.py的程序，如下：主要是注意跳转下一页的用法。

640?wx_fmt=png

640?wx_fmt=png

2）新建duplication.py的程序，如下：

640?wx_fmt=png

3）修改items.py的程序，如下：

640?wx_fmt=png

4）修改pipelines.py的程序，比如写了两个pipline，一个保存到text文件，一个保存到csv中，如下：

text的pipline程序如下：

640?wx_fmt=png

也可以保存在csv中，如下程序：

640?wx_fmt=png

5）编写运行爬虫的程序，我的是runspider.py，如下：

640?wx_fmt=png

6）对应的修改settings.py：导入去重类、pipline类、设置DEPTH_LIMIT

导入去重类：

640?wx_fmt=png

pipeline类：

640?wx_fmt=png

设置DEPTH_LIMIT：

640?wx_fmt=png

7）执行出来的文件如下所示：

640?wx_fmt=png

猜你喜欢

转载自blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154986

Python爬虫案例2：获取抽屉网页所有的新闻标题并保存到csv

python爬虫之抓取网页新闻标题与链接

抽屉作业：初识scrapy并获取新闻标题

利用scrapy获取抽屉新热榜的标题和内容以及新闻地址保存到本地

Python爬取ithome的一所有新闻标题评论数及其他一些信息并存入Excel中。

带有超详细注释的GPT2 新闻标题生成项目

python2爬取虎扑NBA的新闻标题和内容(入门勿喷)

【sublime】使用sublime3的查找替换功能获得html页面的所有新闻标题

python-----爬新浪新闻标题链接

Java截取新闻标题

Paython爬取网页所有图片并保存到本地

通过python获取A网站的所有图片并保存到对应文件夹

Python爬虫（二）：爬虫获取数据保存到文件

Python爬虫：爬虫获取数据保存到文件

【Python】python爬虫获取腾讯新闻正文标题内容-源码

Crawler：Python爬取14年所有的福彩信息，利用requests库和BeautifulSoup模块来抓取中彩网页福彩3D相关的信息，并将其保存到Excel表格中

网络爬虫百度新闻标题及链接爬取

CSS---浮动练习---新闻标题

第三十四节新闻标题练习

新浪新闻标题爬取

Java教程:Java截取新闻标题

python获取个人博客所有标题

Python2获取网页标题

vfp9.0通过WebBrowser控件获取QQ新闻标题及链接

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

python3 使用BeautifulSoup爬取网页内容保存到csv

Python 快速获取文件夹中的所有文件名，并保存到txt文件中

Python 实现Jaccard相似度计算，判断英文新闻标题相似度

Python爬虫学习6：scrapy入门（一）爬取汽车评论并保存到csv文件

Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)