python 2.7 音频《三国演义》下载 - 代码天地

python 2.7 音频《三国演义》下载

其他 2018-11-10 14:50:55 阅读次数: 0

自己总结的一些思路：
1.先到所要下载的音频的网页查找网络的一些基本信息（url，headers）
2.在network里查找json文件，得到下载所在的网页路径
3.开始编码
4.先正则匹配到每章节的id和名称
5.找到该章节下载所在的网页
6.正则匹配下载网页里的下载网址
7.以.m4a的 形式存到本地



#coding=utf-8
import requests
import re
from bs4 import BeautifulSoup

def  get_url(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36",

    }

    res = requests.get(url, headers=headers)
    return res

def  main():
    url = "https://www.ximalaya.com/renwen/268522/"
    res = get_url(url)
    res.encoding="utf-8"
    html = res.text
    soup = BeautifulSoup(html, features='lxml')
#查看一下网页
    print soup.prettify()  # 将网页格式化
#正则匹配一下《三国演义》的id以及他的章节名称
    reg = 'href="/lishi/268522/(.*?)">(.*?)</a>'
    name_url = re.findall(reg,html)

    for sound_id,title in name_url:
#输出id和章节查看一下
        print sound_id,title
#找到对应章节下载的所在的网页
        json.url = 'http://www.ximalaya.com/tracks/'+str(sound_id)+'.json'
        print json.url

        r = get_url(json.url)
#正则匹配一下下载路径
        regs = '"play_path_64":"(.*?)"'
        sound_url = re.findall(regs,r.text)
        print sound_url[0]
#将该章节以.m4a形式下载到本地文件中
        ret =get_url(sound_url[0])
        with open("C://img222//"+title+'.m4a','wb') as f:
            f.write(ret.content)


if __name__ == "__main__":
    main()

猜你喜欢

转载自blog.csdn.net/qq_42133828/article/details/83661272

python 2.7 音频《三国演义》下载

【Python】三国演义词频统计

python三国演义人物出场统计

Python XPath抓取小说《三国演义》《二》

Python XPath抓取小说《三国演义》

python 绘制三国演义人物关系图

python WordCloud 绘制三国演义词云

【Python】Tips: 《三国演义》人物出场统计

Python-继人物词频统计三国演义之后-三国词云（Wordcloud）

Python XPath抓取小说《三国演义》《三》多线程简单实例

Python爬取《三国演义》并且制作词云

python 学习三国演义词频显示 DAY6

Python-人物词频统计-jieba库-三国演义

用python分析《三国演义》中的社交网络

用Python走入史学经典《三国演义》中的社交网络

用python分析《三国演义》中的社交网络！

用python分析四大名著之三国演义

Python利用jieba库实现中文词频统计：以三国演义为例

python诗词名句网爬取《三国演义》

python爬虫学习（十一）bs4解析爬取三国演义

Python---统计《三国演义》中出现次数较高的人物

Python文本处理：《三国演义》词云的构建与分析

8-4 《三国演义》人物出场统计（无名单版）python

8-4 《三国演义》人物出场统计（名单版）python

Ubuntu的中文是哪种字体？python的词云分析和三国演义人物出场统计

以《三国演义》为密码本，用Python对文本进行加密和解密

Python爬取《三国演义》全部章节，统计出现次数前100的武将并生成词云。

Python 分析《三国演义》看司马懿三父子如何用计谋干掉了曹操后代

Python matplotlib库的应用（根据“荆州”在《三国演义》每一回中出现的次数，绘制折线图）

【jieba库】使用jieba库对《三国演义》全篇进行分词处理，统计《三国演义》中各个人物的出场次数，打印次数排名前五的人物姓名具有排除词库和合并不同称谓功能的Python程序|CSDN创作打卡

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)