语音识别（二） - 代码天地

语音识别（二）

其他 2019-03-01 13:30:36 阅读次数: 0

连续语音识别

参考：http://www.julyedu.com/video/play/104/916

其中， $W^{*}$ 和 $W$ 由单词变成句子， $P(X|W))$ 为句子的声学模型， $P(W)$ 为句子的语言模型

1.语言模型

链式法则

P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|我爱天)*P(门|我爱天安)

常见形式 n-gram

每个词只与前n-1个词有关系

Bigram

P(我爱天安门) = P(我)*P(爱|我)*P(天|爱)*P(安|天)*P(门|安)

Trigram

P(我爱天安门) = P(我)*P(爱|我)*P(天|我爱)*P(安|爱天)*P(门|天安)

其他形式：最大熵、神经网络

Bigram是马尔科夫模型

下一个词只与当前词有关系

模型是遍历的，不是单向的

可与单词的声学模型复合

2.大词汇量语音识别

不能为每个单词单独训练HMM

改成为每个音素训练一个HMM（音素有限）

HMM的复合

音素HMM按词典拼接成单词HMM

单词HMM与语言模型复合成语言HMM

训练

给定许多语音和对应的音素串，求模型参数

每个音素串的HMM是单向的，仍用EM算法

解码

给定一门语言的HMM和一条语音，求单词串

用Vitebi算法求最佳路径（beam search剪枝）

最佳路径经过的单词为识别结果

3.语音识别系统（1990~2010）

声学模型：声音怎样匹配音素（每个音素怎样发音的）

词典：音素怎样组成单词

语言模型：单词怎样组成句子

4.评价指标：词错误率（WER）

计算方法：

将标准答案与识别结果对齐

用插入、删除、替换错误的总数初一标准答案的长度

对齐应使得错误的数最少

猜你喜欢

转载自blog.csdn.net/wangzhanxidian/article/details/79874501

语音识别（二）

二、Python开发语音识别

语音识别系列︱paddlehub的开源语音识别模型测试（二）

端到端语音识别（二） ctc

语音识别算法原理文档整理（二）

ROS Melodic语音识别学习（二）

Android-谷歌语音识别之离线识别（二）

语音识别

语音识别与语音合成

语音识别语音合成

基于深度学习方法的语音识别研究（二）

人工智能入门（二）：语音识别基本模型

语音识别（二）——基本框架, Microphone Array, 声源定位

论文笔记：语音情感识别（二）声谱图+CRNN

语音识别(二)：特征抽取~1.2 mfcc和plp

有趣的开源软件语音识别工具Kaldi 二

Python调用百度API实现语音识别（二）

有趣的开源软件：语音识别工具Kaldi (二)

语音识别之HTK入门（二）准备训练数据

语音合成和语音识别

语音合成以及语音识别

深度学习整理篇（二）语音分段和讲话人语音文件识别

Speech Recognition，初见语音识别——语音信号处理学习（二）

AI智能语音识别模块（二）——基于Arduino的语音控制MP3播放器

技术解读 | 科大讯飞语音技术最新进展之二：语音识别与语音合成

语音识别一、语音识别介绍

[语音识别] 01 语音识别概述

【语音识别】基于keras的简易语音识别

语音识别学习笔记（二）【基于矢量量化的识别技术】

二、Windows10平台下Unity3d的语音识别——语法识别

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)