scrapy爬虫--10分钟入门 - 代码天地

scrapy爬虫--10分钟入门

其他 2019-05-05 18:34:40 阅读次数: 0

# -*- coding: utf-8 -*-
# @Time    : 2019/4/18 9:10
# @Author  : wujf
# @Email   : [email protected]
# @File    : mingyan_spider.py
# @Software: PyCharm

import scrapy

class mingyan(scrapy.Spider):
    #name = "mingyan2"

    # def start_requests(self):
    #
    #     #定义爬取的链接
    #     urls = [
    #         'http://lab.scrapyd.cn/page/1/',
    #         'http://lab.scrapyd.cn/page/2/'
    #     ]
    #
    #     for url in urls:
    #         yield scrapy.Request(url=url,callback=self.parse)

    #另外一种写法
    name = 'itemSpider'
    start_urls = [
        'http://lab.scrapyd.cn'
    ]

    def parse(self, response):
        mingyan = response.css('div.quote')
        for v in mingyan:

            text    = v.css('.text::text').extract_first()
            author  = v.css('.author::text').extract_first()
            tags    = v.css('.tags .tag::text').extract()
            tags    = ','.join(tags)
            fileName= '%s-语录.txt'%author
            with open(fileName,'a+') as f:
                f.write(text+'\n'+'标签：'+tags)

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)   #urljoin(next_page)把相对路径，如：page/1转换为绝对路径，其实也就是加上网站域名
            yield scrapy.Request(next_page,callback=self.parse)  #yield 生成器一般


        # page = response.url.split('/')[-2]
        # filename = 'mingyan-%s.html'%page
        #
        # with open(filename,'wb') as f:
        #     f.write(response.body)
        # self.log('保存文件：%s'%filename)

　　

猜你喜欢

转载自www.cnblogs.com/wujf-myblog/p/10815321.html

scrapy爬虫--10分钟入门

python scrapy 入门,10分钟完成一个爬虫

Python开发之 10分钟教你学会爬虫Scrapy

30分钟入门Python爬虫

听说你想学爬虫？Scrapy快速入门！给我五分钟，包你学会爬虫！

10分钟入门pandas

10分钟入门pandas（二）

10分钟入门pandas(一)

10分钟MarkDown快速入门

Webpack 10分钟入门

React 10分钟快速入门

10分钟入门 Pandas 0.23.4

Shiro 10分钟快速入门

JavaScript 10分钟入门

10分钟入门pytorch(0)

10分钟从零入门json

Thymeleaf教程（10分钟入门）

css 笔记（10分钟入门）

python爬虫入门10分钟爬取一个网站

Python 萌新 - 花10分钟学爬虫

10分钟.Net Core 简单入门教程

Activiti5的10分钟入门指南

10分钟快速入门运维工具-Puppet

10分钟快速入门Python函数式编程

10分钟快速入门rollup.js

10分钟入门 - 微信小程序开发

10分钟 PySimpleGUI 图形界面入门

10分钟带你入门Cython

菜鸟10分钟入门Spring MVC

10分钟快速入门vue.js

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)