新建一个scrapy项目 - 代码天地

新建一个scrapy项目

其他 2018-10-25 08:11:44 阅读次数: 0

此次是做一个豆瓣的top250信息的抓取

首先打开pycharm

在pycharm的下端的Terminal中输入scrapy startproject douban

此时系统就生成了以下文件(spiders文件下自带一个_init_.py)还有一个_init_.py items.py middlewares.py piplines.py settings.py

我们从第一次的随笔中知道scrapy框架只有三个东西需要我们操作一个是items、settings、还有个是等下创建的spider文件

首先打开items.py

items.py是我们定义数据结构的地方以后哪些东西要存放就现在这定义好

我们需要的是序号，电影名称，电影介绍，星级，电影评论，电影描述

可以模仿默认的# name = scrapy.Field()的形式创建自己需要的内容

然后我们更改settings.py

settings.py的内容比较多首先找到ROBOTSTXT_OBEY = True

因为我们要做的事情是违背他这个规则的所以第一件事是把True改成False

第二件事是将DOWNLOAD_DELAY = 3改成DOWNLOAD_DELAY = 0.5

因为这样我们抓取得速度可以快很多

最重要的是USER_AGENT

我们去我们目标网站：https://movie.douban.com/top250

按F12打开调试工具按F5刷新页面找到我们需要的top250文本查看html

单击top250，往下拉找到USER_AGENT

将内容拷贝到我们的settings.py中这样我们目前setting.py就完成了

还有爬虫文件需要我们去创建创建方式如下：

scrapy genspider 爬虫名称域名

这时就生成了一个爬虫文件

猜你喜欢

转载自www.cnblogs.com/hy123456/p/9847570.html

新建一个scrapy项目

Scrapy新建一个爬虫项目及环境搭建

pycharm怎么新建一个scrapy项目

如何用scrapy新建一个爬虫文件

vue 如何新建一个项目

新建一个maven项目

IDEA新建一个web项目

Android入门（新建一个项目）

如何新建一个springboot项目

SpringBoot------新建一个项目

初次新建一个vue项目

Idea新建一个springBoot项目

新建一个完整的vue项目

新建一个vue项目

svn新建一个项目

新建一个Django项目

如何新建一个hibernate项目?

idea 新建一个spring项目

vue新建一个项目

新建一个java项目

新建一个vue cli项目

如何让新建一个Vue项目

使用codeblocks新建一个项目

如何新建一个Maven项目

新建一个默认的React项目

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

手把手教你如何新建scrapy爬虫框架的第一个项目（上）

新建一个.net项目新建类库

scrapy的一个简单小项目

一个完整的scrapy 项目

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)