爬取虎牙标题、作者、热度 - 代码天地

爬取虎牙标题、作者、热度

其他 2020-03-07 01:50:46 阅读次数: 0

# -*- coding: utf-8 -*-
import scrapy
from huyaAll1.items import Huyaall1Item


class HuyaSpider(scrapy.Spider):
    name = 'huya'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.huya.com/g/xingxiu']

    # 建立通用的url模板：
    url = "https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=1663&tagAll=0&page=%d"

    def parse(self, response):
        li_list = response.xpath('//*[@id="js-live-list"]/li')
        for li in li_list:
            title = li.xpath('./a[2]/text()').extract_first()
            author = li.xpath('./span/span[1]/i/text()').extract_first()
            hot = li.xpath('./span/span[2]/i[2]/text()').extract_first()
            # 实例化item类型对象：
            item = Huyaall1Item()
            item['title'] = title
            item['author'] = author
            item['hot'] = hot
            yield item

        # 手动请求发送：
        for page in range(2, 5):
            new_url = format(self.url % 1)
            # 发起get请求：
            yield scrapy.Request(url=new_url, callback=self.parse_othor)

    # 解析方法模拟parse进行定义、必须要有和parse同样的参数：
    def parse_othor(self, response):
        print(response.text)

猜你喜欢

转载自www.cnblogs.com/zhang-da/p/12432110.html

爬取虎牙标题、作者、热度

爬取知乎热度搜索标题并数据分析及可视化

java爬取斗鱼：与虎牙对比

爬取虎牙存入mysql和redis

爬取百度学术：标题，关键词，年份，摘要，原链接，作者。

Scrapy:虎牙爬取，图片存储与数据分析

爬取虎牙游戏主播人气分析实战

python指定爬取虎牙图片(简单详细)

Python爬虫：爬取虎牙星秀主播图片

Python爬取论文标题、作者、摘要等信息并存入MySQL--简述爬虫是如何将爬取数据存入MySQL数据库

爬取虎牙之一：（王者荣耀主播信息普通爬取）

爬取斗鱼主播名字和热度

去哪儿旅行，景点热度排行爬取案例

爬虫基础-爬取豆瓣音乐人及热度

python爬取i春秋文章标题

[Python]爬取CSDN论坛标题 2020.2.8

新浪新闻标题爬取

爬取网站的子链接和标题

爬取虎牙之三：通过json数据获取所有直播情况

Python爬虫实战：基于Scrapy爬取虎牙星秀主播图片并下载到本地

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

爬取虎牙主播，免费爬些想看的东西，咳咳（为什么要学python？）

python：知乎发现页的爬取（问题，作者，回答）

python.pygal/reuqests学习范例-爬取github上Python热度并数据化显示

爬取知乎热度并且进行数据分析和可视化

老程序如何python代码爬取豆瓣热度Top100以内的电影信息

爬取TIOBE编程语言热度数据 + Pyecharts绘制时间轮播图

Python爬取知乎专栏文章标题及URL

Node.js爬取十九大报告标题链接

爬取多个页面的新闻标题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)