Lhotse 音频库管理音频数据集 - 代码天地

Lhotse 音频库管理音频数据集

企业开发 2023-12-17 01:48:51 阅读次数: 0

原文参考这里，原文作者

Generative AI ，作者Feiteng

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库，它与 k2 一起，构成了下一代 Kaldi 语音处理库的一部分。

主要目标：

1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

3. 为常用的语料库提供标准的数据准备方案。

4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

6. 提高效率，特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道，可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件，都可以使用 cut 来有效表达：

Lhotse 支持了近百个数据集，开箱即用，新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外，Lhotse 还可以 custom 许多信息：强制对齐、duration、pitch 等，可以方便地支持多种语音任务。

对于特征抽取的存储，Lhotse 的写入效率会随着文件大小逐渐变慢，必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外，尽管 Lhotse 提供了命令行工具，但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

https://github.com/k2-fsa/icefall
https://github.com/lifeiteng/vall-e

参考资料：

https://lhotse.readthedocs.io/en/latest/index.html
Slides for the Interspeech 2023 tutorial
https://github.com/k2-fsa/icefall/issues/1230

猜你喜欢

转载自blog.csdn.net/chumingqian/article/details/134561816

Lhotse 音频库管理音频数据集

肺部的音频数据集

PCM音频数据

音频数据增强

voxceleb2视频和音频数据集的下载

ffmpeg抽取音频数据

ffmpeg抽取音频数据

ffmpeg 采集音频数据

通过pcm音频数据计算分贝

抓取得到App音频数据

PCM音频数据格式介绍

AudioTrack 播放PCM音频数据

视音频数据源分析

OpenSL ES录制PCM音频数据

Python 音频数据扩充的技巧

android蓝牙取sbc音频数据

FFMPEG解码海思音频数据

python处理原始音频数据

ffmpeg 采集pcm音频数据并播放

音频数据通路解析

音频数据的Flash读取与DAC播放

使用FFMPEG提取音频数据

Android/linux从usb声卡获取音频(使用libusb库)---libusb库获取“纯麦”音频数据，附（四）

Android/linux从usb声卡获取音频(使用libusb库)---libusb库获取“纯麦”音频数据（三）

谷歌有情怀！谷歌开放大规模音频数据集 AudioSet

历史最全开放语音/音频数据集整理分享

[1DCNN] 简单使用自制音频数据集进行模型训练

FFMPEG学习笔记---SDL+FFmpeg解码音频数据

使用DirectX播放音频数据流

C语言WAV音频数据封装实例

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)