【python学习】scrapy爬虫框架学习

scrapy学习,可以参考:scrapy1.5中文文档,http://www.scrapyd.cn/doc/

1)创建项目

  1. 指定文件夹目录创建项目,cmd进入文件夹路径,使用命令: scrapy startproject 项目名

      创建成功后的项目目录结构:

      

2)编写第一个蜘蛛,参考:http://www.scrapyd.cn/doc/140.html

import scrapy


class mingyan(scrapy.Spider):  # 需要继承scrapy.Spider类

    name = "mingyan2"  # 定义蜘蛛名(crwal后的名称)

    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')

        for v in mingyan:  # 循环获取每一条名言里面的:名言内容、作者、标签

            text = v.css('.text::text').extract_first()  # 提取名言
            autor = v.css('.author::text').extract_first()  # 提取作者
            tags = v.css('.tags .tag::text').extract()  # 提取标签
            tags = ','.join(tags)  # 数组转换为字符串


            #保存
            fileName = '%s-语录.txt' % autor  # 爬取的内容存入文件,文件名为:作者-语录.txt
            with open(fileName, "a+") as f:  # 不同人的名言保存在不同的txt文档,“a+”以追加的形式
                f.write(text)
                f.write('\n')  # ‘\n’ 表示换行
                f.write('标签:' + tags)
                f.write('\n-------\n')
                f.close()

3)pycharm中运行Scrapy爬虫项目,参考:https://www.cnblogs.com/llssx/p/8378832.html

     定义一个py,如下:

from scrapy import cmdline

# 参数三为爬虫的名字name
cmdline.execute(['scrapy', 'crawl', 'mingyan2'])

4)scrapy提取数据:

      1. css选择器
      2. scrapy提取数据:xpath选择器

5)scrapy命令

发布了38 篇原创文章 · 获赞 7 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_43285577/article/details/103762089