scrapy简单使用方法 - 代码天地

scrapy简单使用方法

编程语言 2020-02-08 09:55:31 阅读次数: 0

步骤：

1、在编译器（我用的Pycharm）里新建文件夹，名称随意

2、从终端（Anaconda Prompt）中进入所创建的文件夹（Anaconda Prompt中切换C盘和D盘方法见上篇博客）

3、在该文件夹中创建scrapy框架，即执行命令：

scrapy startproject Name

其中，Name是自己命名的项目名

4、在编译器中更改该文件夹中新生成的settings文件：

第22行,把 ROBOTSTXT_OBEY=True 改为 False（这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取）

第67到69行代码解注释,并把300改为1（这是优先级设置）

5、在Name文件夹中的spider文件夹下进行爬虫操作，因此在Anaconda Prompt中更改当前路径，进入到spider文件夹

6、创建爬虫文件，即在Anaconda Prompt中执行命令：

scrapy genspider baidu_spider baidu.com

其中，baidu_spider为新建的python文件名称，可以随意更改，但不能与项目名相同，后面的baidu.com是准备爬取的网站的url

7、在编译器中打开新建的baidu_spider文件，之后所有的爬取操作都由这个文件控制（主要由parse函数控制）。

补全baidu_spider.py中的url，更改parse中的内容（具体看需要，可以直接print（response.body）输出网页源码或者其他任意操作都可）

8、开始爬取，即在Anaconda Prompt中执行代码：

scrapy crawl baidu_spider

不想当小白

发布了21 篇原创文章 · 获赞 21 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_38813668/article/details/104218828

scrapy简单使用方法

【Scrapy笔记】使用方法

scrapy shell基本使用方法

Scrapy正则匹配的使用方法总结

WebServer的简单使用方法

KTable的简单使用方法

gitlab的简单使用方法

SQLite的简单使用方法

Navicat简单使用方法。

QStringList的简单使用方法

GitBash的简单使用方法

git 简单的使用方法

Junit简单使用方法

简单的retrofit使用方法

JsonCpp的简单使用方法

Toolbar的简单使用方法

AWK简单使用方法

mysqldumpslow的简单使用方法

Fragement简单使用方法

简单Banner使用方法

GCD的简单使用方法

MJRefresh 简单使用方法

Git的简单使用方法

简单的Sqlite使用方法

MYSQL的简单使用方法

markdown简单的使用方法

crawlscrapy简单使用方法

fiddler的简单使用方法

jsonwebtoken 简单使用方法

Charles的简单使用方法

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)