python scrapy爬虫项目的诞生 - 代码天地

python scrapy爬虫项目的诞生

其他 2018-08-31 01:21:48 阅读次数: 0

前提安装好scrapy模块最好 requests和bs4模块都安装好

可以概括为五个步骤

步骤一：新建一个项目

无论你用windows也好，linux也罢，在cmd或者终端切换到目标文件夹，然后输入命令

scrapy startproject dingsspider(自定义的项目名)

步骤二：生成爬虫

如同shell终端提示的那样，要生成爬虫

重要提示：执行命令时你有可能遇到一个错误，可能不是由于你的代码语法错误，而是来自源代码的错误，请看如下帖子

http://bbs.51cto.com/thread-1547185-1.html

解决方案截图如下：

解决上述问题后，运行命令

scrapy genspider wenwa wenwa.com

哟比～有了项目架构，我们就可以通过改写相关的爬虫类，实现爬虫的运转了

爬取一个网页，以著名编程知识网站runnoob为例，因为朕要学习php（找个python编程工作怎么就JB那么难，大爷的)

在步骤二中，已经通过genspider 命名了一个文件wenwa，那么在爬虫项目中找到同名文件wenwa.py,修改如下：

import scrapy
class WenwaSpider(scrapy.Spider):
    name = 'wenwa'
    allowed_domains = ['www.runoob.com']
    start_urls = ['http://www.runoob.com/php/php-tutorial.html']

    def parse(self, response):
        filename = response.url.split("/")[-2]+".html"
        with open(filename,"wb") as p:
            p.write(response.body)

allow_domians显示了要爬去的主域名，start_urls则是我们要爬取的页面，parse中filename完全是拆分start_urls后形成的列表里面，拿出一个元素给装载爬取结果的文件命名，如果觉得晕，随便取个名字就好

成功生成文件php.html,如下图

打开一看，瓦嗷～真tm丑，不过总算成功了，瓦卡卡

猜你喜欢

转载自www.cnblogs.com/saintdingspage/p/9563450.html

python scrapy爬虫项目的诞生

创建爬虫项目 python scrapy

Python爬虫安装scrapy以及创建scrapy爬虫项目

Python之Scrapy爬虫实战--新建scrapy项目

Python爬虫教程-31-创建 Scrapy 爬虫框架项目

【Python爬虫：Scrapy】之 PyCharm 搭建Scrapy环境+创建Scrapy项目实例

python爬虫基础（14：Scrapy框架之项目演示）

Python学习笔记——爬虫之Scrapy项目实战

Python爬虫框架Scrapy介绍加实战项目

python爬虫（四）---scrapy框架之腾讯招聘项目实战

python爬虫scrapy项目详解（关注、持续更新）

python爬虫scrapy项目详解（关注、持续更新）！

python3 + Scrapy爬虫学习之创建项目

Python Scrapy突破反爬虫机制（项目实践）

【Python自学笔记】Scrapy爬虫项目settings常用设置

【Python自学笔记】Scrapy爬虫项目创建&代码

Scrapy爬虫项目的创建及案例

scrapy 框架 python 爬虫

python爬虫-scrapy框架

Python爬虫————scrapy的使用

python爬虫之scrapy

Python 爬虫七 Scrapy

python爬虫scrapy基础

【爬虫】Python Scrapy 教程

python scrapy 爬虫初学

python爬虫scrapy框架

Python爬虫框架—Scrapy

Scrapy Python爬虫入门

Python爬虫-Scrapy基础

python Scrapy 爬虫实例

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)