语音识别|中文语音识别开源数据集整理（持续更新）

其他 2020-08-12 01:57:40 阅读次数: 0

1.模型标注数据

模型标注数据文件位于：https://github.com/makeplanetoheaven/NlpModel/tree/master/SpeechRecognition/Dataset

其文件中每行代表一条数据，其格式为：

wav_data_path \t pinyin_list \t hanzi_list \n

其数据名称和数据量如下：

Name	total	train	dev	test
aishell 1	141593	120098	14322	7173
primewords set 1	50902	-	-	-
thchs-30	13388	10000	893	2495
st-cmd	102597	-	-	-
magicdata	608756	572723	11776	24257
aidatatang_200zh	231712	161025	23703	46984

2.模型训练数据

包括【st-cmd、primewords、aishell 、thchs-30、magicdata、aidatatang】六个数据集，共计约【1385】小时

若需要使用所有数据集，只需解压到统一路径下，然后设置数据所在根目录路径即可。

下面分别为开源数据及对应下载链接

Name	total	train	dev	test	link	提取码
aishell 1	178h	-	-	-	点击
primewords set 1	100h	-	-	-	点击
thchs-30	30h	-	-	-	点击
st-cmd	122h	-	-	-	点击
magicdata	755h	712.09h	14.84h	28.08h	点击	4p13
aidatatang	200h	-	-	-	点击

猜你喜欢

转载自blog.csdn.net/qq_28385535/article/details/103644423

语音识别|中文语音识别开源数据集整理（持续更新）

语音识别|中文语音识别开源数据集整理

中文普通话语音识别开源数据集（持续更新）

AI ＞语音识别开源项目列举

webhub123整理中文语音识别数据集

6款支持中文语音识别开源软件的简单使用

本地语音识别开源软件pocketsphinx调试总结

语音识别开源框架 openAI-whisper

开源(离线)中文语音识别ASR(语音转文本)工具整理

kinect for unity 语音识别开发记录

中文语音识别

中文语音识别pytorch

Tensorflow 中文语音识别

语音识别开源库 FastARS 移植到GEC6818开发版

可以白嫖的语音识别开源项目whisper的搭建详细过程 | 如何在Linux中搭建OpenAI开源的语音识别项目Whisper

开源语音识别工具kaldi

语音识别/合成开源项目

开源语音识别项目

kaldi中文语音识别(1)

语音识别系列︱paddlespeech的开源语音识别模型测试（三）

语音识别系列︱paddlehub的开源语音识别模型测试（二）

[语音识别] 语音识别系统化整理

语音识别

语音识别与语音合成

语音识别语音合成

语音和噪声相关数据集(持续更新)

几个最新免费开源的中文语音数据集

开源PocketSphinx语音识别系统

OpenAI 开源语音识别模型 Whisper

开源日报 0822 | 语音识别与推理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)