【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割 - 代码天地

【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割

其他 2020-02-17 18:19:01 阅读次数: 0

在这里插入图片描述
本文为德国卡尔斯鲁厄理工学院（作者：Micha Wetzel）的学士论文，共57页。

多媒体内容损害了自动语音识别（ASR）系统的识别精度和速度。本学士学位论文介绍了一种分段器，通过检测音频源中的音乐和噪声片段并用静音代替，来提高实时ASR系统的性能。提出了一种由帧分类和平滑两步组成的方法。大小为10毫秒的音频帧用分类模型分类为语音、音乐或噪声。以神经网络和支持向量机为模型，对多种设置进行了比较，分类精度达到87%。在第二步中，平滑算法考虑时间上下文以防止分类的快速波动。所提出的分段器能够产生与手动移除音乐片段相同的ASR系统的转录质量，同时保持270毫秒的实时可用延迟。

Multimedia content hurts the recognition accuracy and speed of automatic speech recognition (ASR) systems. This bachelor thesis introduces a segmenter to increase the performance of an real-rime ASR system by detecting music and noise segments in an audio source and replacing it with silence. A two step approach is proposed, consisting of frame classification and smoothing. Audio frames of size 10 milliseconds are classified as speech, music or noise with a classification model. Multiple settings with neural nets and support vector machines as model are compared, resulting in an classification accuracy of 87%. In the second step the smoothing algorithm considers the temporal context to prevent rapid class fluctuations. The proposed segmenter yields a transcript quality of an ASR system en-par with manual removal of the music segments, while maintaining a real-time applicable delay of 270 milliseconds.

引言
项目背景
以有的工作
研究方法
实验
结论

更多精彩文章请关注公众号：在这里插入图片描述

梅花香——苦寒来

发布了252 篇原创文章 · 获赞 157 · 访问量 33万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/weixin_42825609/article/details/104316764

【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割

【计算机科学】【2015.05】基于卷积神经网络的鲁棒分类

【计算机科学】【2018.05】基于时延神经网络的混响鲁棒声学建模

【计算机科学】【2015.08】训练深度神经网络的快速图像识别方法

【计算机科学】【2017.05】基于深度神经网络的特征选择

【计算机科学】【2017.12】基于深度神经网络的唇读研究

【计算机科学】【2004.05】基于神经网络的时间序列预测

【计算机科学】【2012.05】基于人工神经网络的常微分方程数值求解

【计算机科学】【2013】递归神经网络训练

【计算机科学】【2003】脉冲神经网络

【计算机科学】【2017.08】快速卷积神经网络

【计算机科学】【2005.12】神经网络在生物数据中的应用

【计算机科学】【2009.05】基于神经网络的系统辨识及其在暖通空调系统（HVAC）中的应用研究

计算机视觉——day 91基于双网络的鲁棒特征高光谱目标检测（偏门且很水啊）

基于DL的计算机视觉（6）-- 神经网络

【计算机科学】【2017】一种新的基于数学的神经网络分析框架

卷积神经网络在计算机视觉中的演进

神经网络在计算机视觉中的主要技术

机器学习 day14 ( 神经网络，计算机视觉中的引用：人脸识别和汽车识别)

通用评估神经网络鲁棒性方法—CLEVER

基于神经网络的语音频带扩展

【计算机科学】【2016】【含部分源码】深度神经网络及其实现

【计算机科学】【2008.09】工程变分问题的神经网络

【计算机科学】【2012.12】训练深度神经网络进行瓶颈特征提取

【计算机科学】【1991.09】人工神经网络的理论与应用

【计算机科学】【2017.12】图像分类与回归的深度神经网络模型

基于计算机视觉的语义分割：实现对图像中物体的分割和识别

基于DBN神经网络的语音分类识别

基于深度卷积神经网络分割的飞机类型识别

2024年基于计算机视觉，深度学习卷积神经网络计算机毕业设计选题

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)