使用scrapy抓取sinanew网站 - 代码天地

使用scrapy抓取sinanew网站

编程语言 2018-07-21 05:09:24 阅读次数: 0

平时搞爬虫都是自己写函数，写了很长时间，突然听到朋友说，框架很好用，可以来尝试尝试，所以就来了解了解scrapy，但是接触之后，并没有感觉到框架好用，可能是自己使用框架经验还不足吧，也研究了好多天，下边把我的经验跟大家分享一下，有错误的话，欢迎指正！

1，这次抓取的网站是http://news.sina.com.cn/guide/，网上也有这个网站的抓取案例，因为忘了链接，就不附上了

首先创建项目 scrapy startproject sinanew

进入创建的项目，cd sinanew

然后创建spider scrapy spiders sian 'sina.com.cn/guide'

好了，咱们看下项目的目录结构

在浏览器打开网站，得到如下页面：

咱们抓取的内容呢，就是抓取大标题，然后抓取每个大标题下的小标题，最后再抓取小标题中的新闻信息，保存的目录文件格式呢就是大标题/小标题/文章1，文章2....

明确了抓取思路后，接下来就开始愉快的撸代码吧

首先打开f12调试，找到大标题及其链接的位置，使用xpath进行定位，抓取大标题，附图如下：

再找小标题及其链接，使用xpath进行定位，附图如下：

找到小标题中的文章，定位文章标题，内容，附图如下：

再点击文章标题，进入文章详情，然后定位文章标题及文章内容，进行爬取,附图如下：

好了，分析就到此为止，然后就附上代码吧

先是sina.py

再是items.py文件内容

settings.py文件改动：将请求头信息取消注释，将遵守robottxt协议改为False

pipelines.py内容：

代码如上，接下来就是执行了，按alt + f12 输入scrapy craw sina 就可以执行爬取了

猜你喜欢

转载自blog.csdn.net/qq_39928840/article/details/81134304

使用scrapy抓取sinanew网站

scrapy抓取网站

【爬虫】Scrapy 抓取网站数据

使用Scrapy抓取数据

Scrapy抓取360网站图片

scrapy抓取所有网站域名

改写sinanew为scrapy+redis分布式

使用scrapy 模拟登陆网站后抓取会员中心相关信息

使用Puppeteer抓取受限网站

使用wget抓取网站资源

使用scrapy抓取百度的图片

使用scrapy框架来进行抓取的原因

scrapy简单的使用和抓取程序

Scrapy(抓取)

scrapy框架的安装与基本使用,scrapy分页数据的抓取

使用scrapy爬取网站

使用Jsoup登录网站抓取网页内容

使用Python实现网站图片抓取

Python爬虫使用selenium抓取网站数据

【爬虫】使用magical抓取某个网站的图片

Spyder 下使用 Scrapy 开发爬虫之腾讯视频抓取

Scrapy 使用CrawlSpider整站抓取文章内容实现

Python中使用Scrapy爬虫抓取链家房价信息

Scrapy框架: 使用cookies登录网站

使用scrapy爬government网站受理信息

动态内容抓取指南：使用Scrapy-Selenium和代理实现滚动抓取

scrapy抓取cnblog新闻

scrapy抓取dmoz内容

笔记——scrapy 抓取图片

scrapy初探（抓取图片）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)