爬取斗鱼中用户信息和图片 - 代码天地

爬取斗鱼中用户信息和图片

其他 2018-06-02 05:07:34 阅读次数: 0

爬取斗鱼中的内容时，分析页面发现，页面跳转时，url不会发生改变，所以，我们可以通过Fiddler抓取真正的网址

import scrapy
import json
from Douyu.items import DouyuItem

class DouyuSpider(scrapy.Spider):
name = 'douyu'
allowed_domains = ['douyu.com']
offset = 0
url = 'https://www.douyu.com/gapi/rkc/directory/0_0/'
# 'https://www.douyu.com/directory/all/gapi/rkc/directory/0_0/' 这个是页面跳转的真实页面
"""直接json格式链接"""
"""https://www.douyu.com/gapi/rkc/directory/0_0/0"""
start_urls = ['https://www.douyu.com/gapi/rkc/directory/0_0/0'] #这个是json格式的

def parse(self, response):

json_text = json.loads(response.text)#将字符串格式的转化为json数据
total_data = len(json_text['data']['rl'])
for i in range(0,total_data):
item = DouyuItem()
item['img'] = json_text['data']['rl'][i]['rs1']
item['name'] = json_text['data']['rl'][i]['nn']
yield item
if self.offset < 100:
self.offset += 1

yield scrapy.Request(self.url+str(self.offset), callback=self.parse)

"""--------------pipline中------------------------------"""

"""实现将图片下载到指定位置"""
class ImagesPipeline(ImagesPipeline):
    IMAGES_STORE = get_project_settings().get("IMAGES_STORE")

    def get_media_requests(self, item, info):
        image_url = item["img"]
        yield scrapy.Request(image_url)

    def item_completed(self, result, item, info):
        image_path = [x["path"] for ok, x in result if ok]
        os.rename(self.IMAGES_STORE + image_path[0], self.IMAGES_STORE + item["name"] + ".jpg")

        item["imagePath"] = self.IMAGES_STORE + item["name"]

        return item

可以查看源代码，/site-packages/scrapy/pipelines/image.py中查看，或者查看官方文档也可以，有详细解释

网址 https://doc.scrapy.org/en/latest/topics/media-pipeline.html

IMAGES_STORE 在setting中设置，路径如果是windows的话注意是 \ Linux的为 / 我的windows为

IMAGES_STORE = 'F:/linux-scrapy/Douyu/image/'

linux 的为 /home/chase/python3-crawling/Douyu/image 这个随意

猜你喜欢

转载自blog.csdn.net/chasejava/article/details/79520500

爬取斗鱼中用户信息和图片

爬取斗鱼图片

Python——selenium爬取斗鱼房间信息

selenium爬取斗鱼的房间信息

python+scrapy爬取斗鱼图片

斗鱼爬虫，爬取颜值频道的主播图片和名字

爬取斗鱼平台

案例_使用Selenium与PhantomJS爬取斗鱼房间信息

selenium爬取斗鱼所有直播房间信息

今日分享--使用urllib 爬取斗鱼英雄联盟图片

利用python爬虫爬取斗鱼图片(简单详细)

Scrapy实践：爬取斗鱼TV主播的头像（重写ImagesPipeline实现图片爬取）

爬取斗鱼主播名字和热度

python爬取斗鱼弹幕

斗鱼弹幕数据爬取

爬斗鱼颜值图片

Scrapy项目(斗鱼直播)---利用Spider爬取颜值下的美女信息

利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数

多线程Beatiful Soup爬取斗鱼所有在线主播的信息

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)

经典爬虫学习（四）-selsenium实现斗鱼直播房间信息爬取

使用scrapy爬取手机版斗鱼主播的房间图片及昵称

python协程gevent案例：爬取斗鱼美女图片

Scrapy 爬取知乎用户信息

Scrapy爬取知乎用户信息

爬取知乎用户信息

抖音用户信息爬取案例

python爬虫的图片信息爬取

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)