语音研究分类

语音是人类实现信息交互最直接、最便捷和最自然的方式之一。自人工智能的概念出现以来，让计算机甚至机器人像自然人一样实现利用语音进行交互就一直是领域研究者的梦想。

众所周知，语音信号携带的信息丰富多样，人与人在进行语音交互时，可以从语音中获取如：直接的内容信息、直接内容信息隐藏下的真实意图、说话人的信息包括说话人身份、说话人情绪、年龄等、所说的语言类型以及说话人所处的环境信息等。人类的大脑可以很直接的通过语音对上述信息进行挖掘和分析，这对于计算机而言却不是一件容易的事情，智能语音技术就是分析、挖掘和理解语音信号中这些信息的技术总合。一般而言，智能语音技术主要包含了如下三个方面的技术：

一、语音识别（Automatic Speech Recongnition,ASR）。让计算机能够自动地识别语音中所携带信息的技术。一般在语音研究领域，语音识别特指将语音中的内容转换成文本。

二、语音合成（Speech Synthesis,SS）。通常是指将文本转换成语音，即让计算机能够将想要表达的内容说出来的文本语音转换技术（Text to Speech,TTS）。

三、自然语言处理（Natural Language Processing,NLP）。是指能够理解文本中所表达的含义，通俗的说来，技术就是让计算机不但能够听懂说了什么内容，还能够理解更深层次的语义。

目前世界上现存的语言种类大约有6909种，其中拥有书面文字的语言多达2000多种，并且大部分语言之间差别很大、如何在不同语言之间实现便捷的信息交互是一个难点。事实上大部分己有的智能语音技术中，都是针对不同的语言，分别设计独立的语音识别、语音合成和自然语言处理系统。

因此，只有确定了语音的语言种类，才能进行后续的处理。伴随着全球化趋势的飞速发展，国际化交流的日趋深入，拥有不同语言背景的人进行交流和沟通的场合越来越多。面对不断升温的多语言交流需求，仅仅依靠人类自身通过多语言学习显然是不可行的，迫切地需要多语言智能语音技术提供支撑。这其中，对语言种类的精确识别首当其冲，成了多语言智能语音技术中至关重要的前端处理环节。

猜你喜欢