scrapy 框架中遇到的bug~~~~~~持续更新 - 代码天地

scrapy 框架中遇到的bug~~~~~~持续更新

其他 2018-09-10 10:32:47 阅读次数: 0

域名错误

class WendaSpider(scrapy.Spider):
    name = 'wenda'
    # allowed_domains = ['autohome.com']
#域名错误会导致后续的URL无法继续解析，所以要求要么不写。要写就必须确保写对~@@@@
    start_urls = ['https://wenda.autohome.com.cn/topic/list-0-0-0-0-0-1']
    item = QichezhijiaItem()
    n = 1
    def parse(self, response):
        detail_url = response.xpath('//ul[@class="question-list"]//h4/a/@href').extract()

        for url in detail_url:
            url = response.urljoin(url)
            yield scrapy.Request(url, callback=self.parse_info)

            print(response.urljoin(url))

            next_url = response.xpath('//div[@class="athm-page__info"]/a/@href').extract_first()
            if next_url:
                yield scrapy.Request(response.urljoin(next_url), callback=self.parse)

    def parse_info(self, response):

        titles = response.xpath('//h1[@class="card-title"]/text()').extract_first()
        requests = response.xpath('//div[@class="card-content "]//p/text()').extract_first()
        level = '--'.join(response.xpath('//ul[@class="card-tag-list"]/li/text()').extract())
        answer_url = response.xpath('//div[@class="text-wrap"]/a[@class="text"]/@href').extract()
        # answer_imgs = []
        # contentss = []
        # zan = []
        for url in answer_url:
            yield scrapy.Request(response.urljoin(url),callback=self.parse_answer)

猜你喜欢

转载自blog.csdn.net/qq_42709587/article/details/81877249

scrapy 框架中遇到的bug~~~~~~持续更新

Scrapy框架 Scrapy框架

scrapy 初识 scrapy框架

scrapy框架

Scrapy 框架

scrapy 中遇到的问题

Scrapy中遇到的坑

Scrapy框架（一）——初始Scrapy

[爬虫框架scrapy]scrapy的安装

Scrapy框架中的CrawlSpider

爬虫中的scrapy框架

scrapy安装中遇到的问题

scrapy shell中遇到的坑

Scrapy框架学习 - Scrapy框架的安装与使用

scrapy爬虫框架（一）：scrapy框架简介

Scrapy框架学习（一）Scrapy框架介绍

Scrapy框架-scrapy框架快速入门

scrapy框架【spider】 scrapy框架之spider

Scrapy框架 06-01 Scrapy框架

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy遇到的坑

scrapy 安装遇到报错

Scrapy Demo遇到的问题

安装scrapy遇到的问题

scrapy shell 遇到的问题

Scrapy框架的使用之Scrapy对接硒

Scrapy框架的使用之Scrapy对接Selenium

Scrapy框架的使用之Scrapy对接硒

Scrapy框架的使用之Scrapy通用爬虫

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)