语音识别|中文语音识别开源数据集整理(持续更新)

1.模型标注数据

模型标注数据文件位于:https://github.com/makeplanetoheaven/NlpModel/tree/master/SpeechRecognition/Dataset

其文件中每行代表一条数据,其格式为:

wav_data_path \t pinyin_list \t hanzi_list \n

其数据名称和数据量如下:

Name total train dev test
aishell 1 141593 120098 14322 7173
primewords set 1 50902 - - -
thchs-30 13388 10000 893 2495
st-cmd 102597 - - -
magicdata 608756 572723 11776 24257
aidatatang_200zh 231712 161025 23703 46984

2.模型训练数据

包括【st-cmd、primewords、aishell 、thchs-30、magicdata、aidatatang】六个数据集,共计约【1385】小时

若需要使用所有数据集,只需解压到统一路径下,然后设置数据所在根目录路径即可。

下面分别为开源数据及对应下载链接

Name total train dev test link 提取码
aishell 1 178h - - - 点击
primewords set 1 100h - - - 点击
thchs-30 30h - - - 点击
st-cmd 122h - - - 点击
magicdata 755h 712.09h 14.84h 28.08h 点击 4p13
aidatatang 200h - - - 点击

猜你喜欢

转载自blog.csdn.net/qq_28385535/article/details/103644423
今日推荐