【python学习】scrapy爬虫框架学习 - 代码天地

【python学习】scrapy爬虫框架学习

其他 2020-03-21 10:20:52 阅读次数: 0

scrapy学习，可以参考：scrapy1.5中文文档，http://www.scrapyd.cn/doc/

1）创建项目

指定文件夹目录创建项目，cmd进入文件夹路径，使用命令： scrapy startproject 项目名

创建成功后的项目目录结构：

2）编写第一个蜘蛛，参考：http://www.scrapyd.cn/doc/140.html

import scrapy


class mingyan(scrapy.Spider):  # 需要继承scrapy.Spider类

    name = "mingyan2"  # 定义蜘蛛名（crwal后的名称）

    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')

        for v in mingyan:  # 循环获取每一条名言里面的：名言内容、作者、标签

            text = v.css('.text::text').extract_first()  # 提取名言
            autor = v.css('.author::text').extract_first()  # 提取作者
            tags = v.css('.tags .tag::text').extract()  # 提取标签
            tags = ','.join(tags)  # 数组转换为字符串


            #保存
            fileName = '%s-语录.txt' % autor  # 爬取的内容存入文件，文件名为：作者-语录.txt
            with open(fileName, "a+") as f:  # 不同人的名言保存在不同的txt文档，“a+”以追加的形式
                f.write(text)
                f.write('\n')  # ‘\n’ 表示换行
                f.write('标签：' + tags)
                f.write('\n-------\n')
                f.close()

3）pycharm中运行Scrapy爬虫项目，参考：https://www.cnblogs.com/llssx/p/8378832.html

定义一个py，如下：

from scrapy import cmdline

# 参数三为爬虫的名字name
cmdline.execute(['scrapy', 'crawl', 'mingyan2'])

4）scrapy提取数据：

1. css选择器
2. scrapy提取数据：xpath选择器

5）scrapy命令

左上晨

发布了38 篇原创文章 · 获赞 7 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43285577/article/details/103762089

python爬虫框架——Scrapy学习

Python Scrapy爬虫框架学习

python爬虫框架Scrapy学习

Python学习---爬虫学习[scrapy框架初识]

【python学习】scrapy爬虫框架学习

scrapy爬虫框架学习

Python爬虫框架Scrapy学习笔记原创

Python爬虫框架Scrapy学习笔记

Python学习笔记——爬虫之Scrapy框架

学习Python爬虫必备框架：Scrapy

Python爬虫框架scrapy简单学习

《精通Python爬虫框架Scrapy》学习资料

Python 爬虫框架Scrapy Spiders学习

python学习之Scrapy爬虫框架

python 爬虫框架 scrapy 学习笔记

python 爬虫框架scrapy学习记录和整理 python爬虫框架scrapy入门文档学习

Python爬虫学习（七）Scrapy爬虫框架详解

学习随笔 Scrapy爬虫框架

Scrapy框架爬虫学习--2

Scrapy框架爬虫学习--1

爬虫框架Scrapy学习（一）

爬虫Scrapy框架学习（一）

爬虫scrapy框架学习（二）

爬虫scrapy框架学习（三）

Scrapy爬虫框架学习一

学习笔记 scrapy 爬虫框架

【Python3 爬虫学习笔记】Scrapy框架的使用 3

【Python3 爬虫学习笔记】Scrapy框架的使用 4

python爬虫学习笔记-scrapy框架之start_url

Python爬虫学习笔记(实例：scrapy框架基础)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)