scrapy开发几个注意点 - 代码天地

scrapy开发几个注意点

其他 2018-05-25 04:01:40 阅读次数: 2

一、开发工具`pycharm`使用`debugger`功能

在scrapy开发过程中需要开启debugger调试模式配置如下:

1、在根目录下才创建一个main.py的文件

2、在里面书写的代码内容

from scrapy.cmdline import execute
import sys
import os


# 将当前文件添加到path路径下

sys.path.append(os.path.dirname(os.path.abspath(__file__)))


# 开启哪个爬虫

execute(['scrapy', 'crawl', 'cnblog'])

3、直接运行main.py文件就可以

二、在抓取数据的时候调试

1、使用shell

scrapy shell 需要抓取网页的url地址

2、在黑窗口写代码调试

三、自定义命令

1、在spider的同级目录下创建一个包,包名称commands
2、里面创建一个你要运行的命令的文件夹crawlall.py

3、书写代码

from scrapy.commands import ScrapyCommand


class Command(ScrapyCommand):
    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'runs all of the spiders'

    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

4、在settings.py中配置


# 配置

COMMANDS_MODULE = 'scrapy_demo01.commands'

5、查看命令

scrapy --help

# 运行项目下全部的爬虫

scrapy crawlall

四、解决项目中乱码的问题

在settings.py中配置
```
FEED_EXPORT_ENCODING = 'utf-8'
```

猜你喜欢

转载自blog.csdn.net/kuangshp128/article/details/80039064

scrapy开发几个注意点

Java串口开发的几个注意点

DrawLayout几个注意点

网校平台开发需要注意的几个关键点

python项目_Scrapy注意点

android singleTask几个注意点

PowerDesigner 的几个使用注意点

避免NullPointerException的几个注意点

Markdown语法的几个注意点

FaceID调用的几个注意点

编写爬虫的几个注意点

jsx语法的几个注意点

开发响应式页面移动端需要注意的几个点

Android嵌入式开发初学者的几个注意点

socket开发注意点

Android开发注意点

Vue 开发注意点

【logback】使用时几个注意点

作为技术老师的几个注意点

浅谈网站建设的几个注意点

js运算中的几个注意点

数据库优化的几个注意点

cookie需要注意的几个点

String类需要注意的几个点

elasticsearch API使用几个注意点

python 文件操作几个注意点

java中方法重写的几个注意点

用Swift GestureRecognizer 的几个注意点

SpringBoot入门需要注意的几个点

Vue技术18.2几个注意点

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)