AI如何练就读唇术？唇语识别数据功不可没

所谓的“唇语识别”，其实并不神秘。

早在古代，就有专门的唇语师存在。通过长期的训练，他们具备了“观察别人的嘴型，解读其表达语句”的能力。随着科技的发展，人工智能在各领域渐次开放，在唇语识别上，机器已经在赶超人类了。

从技术路径上，唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

运用机器视觉技术从图像中识别出说话人的人脸，提取此人连续说话时口型变化的特征。将连续变化的特征输入到唇语识别模型中，识别说话人口型对应的发音，运用大数据计算出可能性最大的自然语言语句。

在唇语识别过程中，口型与发音，发音与文字之间，并不是唯一对应的关系，常常有多个可能的备选结果，需要实时计算出可能性最大的结果。

唇语识别是集机器视觉与自然语言处理于一体的技术

早在 2003 年，Intel 就开发了唇语识别软件 Audio Visual Speech Recognition（AVSR），开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词，新闻测试集识别准确率首次达到了 50％以上。

国内AI企业搜狗推出了唇语识别人机交互技术。搜狗官方表示，通过复杂端到端深度神经网络技术进行中文唇语序列建模，经过数千小时的真实唇语数据训练，搜狗“唇语识别” 系统在非特定人开放口语测试集上，该系统达到 60% 以上的准确率，在垂直场景命令集如车载、智能家居等场景下甚至已经达到 90% 的准确率。

搜狗的唇语识别技术近年来取得较快发展

未来，唇语识别技术可以辅助语音交互及图像识别，在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下，周围噪音过大时会对语音指令产生干扰。在安防领域，由于目前多数监控只有摄像头没有麦克风，而唇语识别则可以帮助公安人员获取重要的讲话信息，为公共安全提供有效支持。另外，唇语识别还有机会帮助先天性听障人群或老年人，帮助他们更好地与人交流。

唇语识别技术诞生之初就是为了解决语音识别的噪音问题而研发的。总结来看，目前唇语识别技术的应用还是集中在辅助语音识别，这也会使得语音交互更加完善。

由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术，所以在研发难度上比语音识别大得多。

通常情况下，唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模，并通过数千小时的真实唇语数据进行训练。

数据堂深耕于AI数据领域近十年，一直致力于为全球人工智能企业提供专业的数据服务，行业内高标准的《1,998人唇语视频数据》广受重视和好评，能够助力唇语识别技术落地更多应用场景。

数据由1998人参与录制，数据集中包含41,866段视频，总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中，被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注，准确率不低于95%，该数据可用于唇语识别任务场景。

目前，唇语识别技术的普及率较低，其中主要存在两个问题。

第一，摄像头录入存在很大的限制，不能完全满足日常交互需求。

在目前的唇语识别系统中，获得的嘴唇视觉特征信息通常是正向的，这就意味着在交互时，人们需要时刻正对机器。为了能够应用更多的场景，应该使人在非正向角度说话时也能被检测识别。

第二，识别的准确度也是一个关键的问题。

口型与拼音序列是一对的多关系，如 zhi、chi、shi对应的口型序列是一样的，单纯利用视觉特征难以区分，会造成信息识别错误。

不过，越来越多AI企业开始发力唇语识别。业内人士预计，鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力，唇语识别技术或将开启万亿级的大数据市场。可以预见，随着大数据与人工智能的发展，未来的识别准确率会达到更高。