批量下载Americanlife 语音材料 - 代码天地

批量下载Americanlife 语音材料

其他 2019-12-07 20:34:11 阅读次数: 0

批量下载

下载后会在给定目录生成多pdf文件，文件名为每一节的名称

#!/usr/bin/env python3.5
# -*- coding: utf-8 -*-
# @Time    : 2019/11/18 下午10:48
# @Author  : yon
# @Email   : [email protected]
# @File    : day1.py 

import os
import re
import time
import logging
import pdfkit
from bs4 import BeautifulSoup
import requests


def gethtml(url):
    targeturl = url
    filepath = '/home/yon/Desktop/pdf/'
    headers = {
        # 'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept': '*/*',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7',
        'Cache-Control': 'no-cache',
        'accept-encoding': 'gzip, deflate, br',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
        'Referer': 'https://www.google.com/'
    }
    resp = requests.get(targeturl, headers=headers)
    soup = BeautifulSoup(resp.content, "html.parser")
    txt = soup.find("article")
    title = filepath + txt.h1.text.replace(" ", "") + ".pdf"
    # print(title)
    pdfkit.from_string(str(txt), title)



if __name__  == '__main__':
    # gethtml("https://www.thisamericanlife.org/664/transcript")
    for number in range(665, 687):
        urltoget = "https://www.thisamericanlife.org/" + str(number) + "/transcript"
        gethtml(urltoget)
        time.sleep(10)

合并

将多个pdf 合并，并根据每节各自生成书签

猜你喜欢

转载自www.cnblogs.com/g2thend/p/12003179.html

批量下载Americanlife 语音材料

python十行代码批量下载百度翻译语音

balabolka语音库下载

语音识别-kaldi下载与安装

文字转语音软件在哪里下载

下载小说并转成语音

【语音识别工具】kaldi下载与安装

科大讯飞语音SDK下载及测试

语音

手机微信语音批量转文字使用百度语音识别

材料硬度

阅读材料

工具材料

前沿材料

2015年重要网络安全会议材料免费下载

君子签电子签约方案，解决大批量案件材料、法律文书签署难题

SpringMvc 下载和批量下载

通过流下载&批量下载

TIMIT语音库下载以及语音库WAV转换相关问题

从youtube批量下载视频

文件批量下载

wget批量下载

WinScp批量下载脚本

漫画批量下载

批量下载coursera课程

文件批量上传与下载

IDM批量下载

python批量下载pdf

批量下载数据集

批量下载数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)