Python爬取喜马拉雅有声书 - 代码天地

Python爬取喜马拉雅有声书

其他 2020-02-22 14:00:59 阅读次数: 0

# 导入第三方库

import requests
import parsel

# 模拟浏览器
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}


def download_media(media_url, media_name):
　　"""定义下载模块"""
    response = requests.get(media_url, headers=headers)

    with open(f'{media_name}.mp4', mode="wb") as f:
        f.write(response.content)


def media_api(track_id):
    """从网页获取下载地址"""
    api_url = f"https://www.ximalaya.com/revision/play/v1/audio?id={track_id}&ptype=1"
    resepons = requests.get(api_url, headers=headers)
    data = resepons.json()
    src = data["data"]["src"]
    return src


def get_total_page(page_url):
    """请求每页模块"""
    response = requests.get(page_url, headers=headers)
    sel = parsel.Selector(response.text)
    sound_list = sel.css(".sound-list ul li a")
    for sound in sound_list[:30]:
        media_url = sound.css("a::attr(href)").extract_first()
        media_url = media_url.split("/")[-1]
        media_name = sound.css("a::attr(title)").extract_first()
        yield media_url, media_name


if __name__ == '__main__':
　　　"""主程序"""
    # print(media_api(152693861))
    # 循环遍历多页
    for page in range(1, 24):
        medias = get_total_page(f"https://www.ximalaya.com/youshengshu/20642967/p{page}")
        for media_id, media_name in medias:
            media_url = media_api(media_id)
            download_media(media_url, media_name)

猜你喜欢

转载自www.cnblogs.com/panda009079/p/12345085.html

Python爬取喜马拉雅有声书

python爬虫80行代码拿下喜马拉雅有声书

python下载想听的有声书，让喜马拉雅收费，我是程序员！

Python爬取喜马拉雅有声小说【转载】

python爬取喜马拉雅FM雪中悍刀行整本有声小说~

python 爬取喜马拉雅

喜马拉雅爬取

practice之Python爬取喜马拉雅的音频

Python---喜马拉雅fm的音频爬取

有声阅读狂欢下更需要冷静，荔枝、蜻蜓、喜马拉雅们需要"上车"

喜马拉雅说爬取音乐文件

类+进程池的方法爬取喜马拉雅

喜马拉雅全站音频爬取

如何用Python爬取喜马拉雅全网音频文件

Python爬虫--喜马拉雅三国音频爬取

Python实例---爬取喜马拉雅全网音频文件

教你用python爬取喜马拉雅FM音频，干货分享~

Python中使用requests和parsel爬取喜马拉雅电台音频

喜马拉雅

Python 爬取喜马拉雅音频

Python爬虫--喜马拉雅音频爬取

Python爬虫|爬取喜马拉雅音频

【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地

【Python3 爬虫学习笔记】爬取喜马拉雅《宝宝巴士-奇妙三字经》

爬取喜马拉雅FM分类榜的代码分析

喜马拉雅难登“喜马拉雅”

喜马拉雅-春秋

喜马拉雅FM

python爬虫-喜马拉雅_晚安妈妈睡前故事

Python爬虫 -- 喜马拉雅爬虫01

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)