【计算机科学】【2017.12】基于深度神经网络的唇读研究

在这里插入图片描述
本文为布拉格捷克理工大学(作者:Jan Hor′ak)的学士论文,共81页。

唇读问题,意思是仅仅从视觉信息中猜测一个人说出的单词或整个句子的技巧,由于人、语言和发音的多样性,这是一个非常困难但有趣的任务。

在这篇学士论文中,分析了目前已知唇读方法的准确性。我们的目的是验证人工智能方法,即深度神经网络,是否是解决这个问题的合适候选者。在实际设计中,着重介绍在测试数据上训练神经网络的准确性方面的结果,以及通过创建和发布Web应用程序,来发现使用这种工具进行唇读方法的实时语音识别是多么困难。

The problem of lip reading, which means askill of guessing one’s uttered word or whole sentence only out of a visualinformation, is a very hard - yet interesting task, due to variety of people,their languages and articulations. In this bachelor thesis I analyze the knownmethods of lip reading, I find their accuracy and my aim is to verify whetherthe use of artificial intelligence methods, namely Deep Neural Network, is asuitable candidate for solving this problem. In the practical part, I focus onpresenting the results both in terms of the accuracy of the trained neuralnetwork on test data and by creating and publishing a web application to findout how difficult it would really be to use such a tool for a real-time speechrecognition using the lip reading method.

1 引言
1.1 研究动机
1.2 研究目标
2 主要研究内容
2.1 基于Haar Cascades的检测
2.2 神经网络
2.3 当前技术水平
3 使用的数据和工具
3.1 Python
3.2 Jupyter
3.3 OpenCV
3.4 TensorFlow与Keras
4 具体设计
4.1 预处理
4.2 训练
4.3 评估
4.4 Web应用
5 详细实现
5.1 预处理
5.2 训练
5.3 评估
5.4 Web应用
附录A CD光盘中的内容
附录B 安装指南
附录C LRW数据集词汇表

下载英文原文地址:

http://page2.dfpan.com/fs/blcj62217291b610715/

更多精彩文章请关注微信号:在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42825609/article/details/86665348