asr_syllabel_master语音识别详解

data_list: 主要为了存储数据集的标签文本。(st_cmds,thchs30)

general_function:

	包括:
	feature_extract.py:主要用来计算语谱图。
	features_extract.py: 该脚本用于提取语音特征,包括MFCC、FBANK以及语谱图特征; 该脚本是对标签数据进行处理;
	pinzhen.py:拼帧
	file_wav.py:此函数是为了提取语音的文件列表以及文件字典的脚本,为后续的文件处理做准备;
	dict.txt:1421+1(字典:拼音以及对应的字)
	file_dict.py:此函数是用作于加载字典里面的符号,用于声学模型的训练以及语言模型的训练;
	ctcDecoder_tf.py:用tf定义一个专门ctc解码的图和会话,就不会一直增加节点了,速度快了很多
	edit_distance.py:用于计算测试集的准确率。		

model_language:

	包括:
	dic_pinyin.txt:163406+1(拼音字典:两个字拼音)
	language_model1.txt:6880+1(单个字)
	language_model2.txt:58648+1(两个字的词汇)

get_language_model.py:加载已经训练过的语言模型
get_pinyin.py:加载dic_pinyin.txt
##LanguageModel.py: 创建基于隐马尔可夫的语言模型
##LanguageModel2.py:隐马尔可夫语言模型(拼音到文字)
readdata.py:用于读取数据集(thchs30)
model_language_test.py (拼音转为汉字)
test.py

Guess you like

Origin blog.csdn.net/weixin_44885180/article/details/115855404