深度综述 棋局输赢未定,基于深度学习的语音识别已是焦土混战

语音已经逐步成为人们与人工智能互动的重要界面,人工智能落地的新篇章正在书写,而语音争夺的焦土战则早已全面爆发。

语音识别(语音转文字)是语音文本类深度学习应用类别之一,包括语音命令,语音听写和语音转录。语音命令往往比较短,例如“我要王菲的听歌”等等。语音听写则是对近场清晰语音的人对机听写,需要有一定的实时性。

各大硅谷巨头都在争相发展语音入口

苹果Siri依托于iPhone,以苹果手机的数量不难得出Siri拥有比任何人工智能语音助手都更加庞大的基础平台这个结论。

亚马逊Alex则依托于Echo设备。2017年的节日促销, Echo智能音箱家族整体表现亮眼,成了购物季的“明星礼物”,一举拿下全球亚马逊销量最高的商品。这两家都已经在消费普及方面取得了明显的领先优势。而谷歌在搜索方面依然占据领先优势,人们渐渐用语音搜索来代指谷歌的语音技术,整合语音功能的新款软件有Assistant,语音工具有Voice Search。

任何一家硅谷巨头都认定:不能在这个即将到来的生态系统大战中失败。

BAT人工智能的棋局纷纷落子语音入口:

  • 百度语音交互平台Duer OS全面进行开源,百度有基于语言识别和自然语言处理的度秘 DuerOS,所有技术驱动力来自百度大脑,无论是算法还是模型、架构。

  • 阿里智能语音助手AliGenie,阿里人工智能实验室认为AliGenie的优势之处在于语义理解,仅一项关于天气的询问就可以理解700多种中文问法。

  • 腾讯叮当,不仅在于语音交互,更希望以语音为基础,结合视觉与听觉,在原有的“手机助手式”的语音交互上进行叠加配合,真正实现场景化下的高效互动。

另外,to C语音战场的还有搜狗。搜狗建立以语言为核心的人工智能技术,通过问答、语音和翻译更形态应用于搜索和输入法等产品中,把语音输入集成到手机输入法中。

尽管棋局输赢未定,BAT巨头语音领域落子,毫不犹豫。

术业专攻,有人主打语音技术

凭借语音输入、语音识别等NLP方面的功底,科大讯飞家的“网红输入法”,6年囊获了5亿用户。自此,便凭着便利性和可靠性改写了语音输入的普及率。同时,以语音引擎为核心,讯飞拥有一套产业合作的方案。比如在教育和医疗领域,都是讯飞重点“AI+”的应用。同时,还开放了讯飞语音云平台。

语音领域的创业企业思必驰的高性能可定制智能语音交互服务平台产业化项目和科大讯飞,高灵敏度语音识别系统产业化及应用项目均是《国家发展改革委办公厅关于组织实施2018年“互联网+”、人工智能创新发展和数字经济试点重大工程的通知》中公示的AI创新发展和数字经济试点重大工程。

大多数人认为,语音识别和自然语言理解及处理是目前人工智能最成熟、进展最快的两大领域,是中国人工智能公司全球领先的领域。语音识别准确率方面,从腾讯、阿里、百度、科大讯飞到搜狗,都已经在大语料数据库的基础上,将语音识别的准确率提升到了97%以上,这在国际公认的标准参数中都已然处于领先。但是面对场景的困难,识别率依然是考验技术的重点。有种说法是,现在语音识别技术字词方面识别率,到句子的识别率,再到段落的识别率逐级下滑的坡度非常陡峭。

语音识别、自然语言理解等技术不断进阶

焦土之战岂止于单一战场。语音入口的上层应用包括智能家居、智能金融、智能交通、智能医疗等;中层是算法层,包括语音识别、语音处理、声纹识别、定向降噪、声场采集等;在基础支撑层是计算平台、数据平台、数据存储与数据挖掘。

随着各个公司对人工智能的投入,带来了语音识别、自然语言理解等 AI技术的不断进阶;一方面,以智能手机为代表的智能硬件就被剧透的最彻底,各种智能手机在发布会会反反复复的宣贯其语音助手的强大能力。现今,智能手机已经实现了语音识别+地图,形成了语音为核心交互的地图导航。你总不能还像 N年前指望汽车还只能理解你的手写输入法吧。

除了智能手机之外,众多设备在搭载了人工智能之力之后,焕发出新一轮科技的魅力感。之前处于听音乐必备的音箱,可能成为家庭日常生活场景的中心,成为智能家庭的标配。智能的视野显然不仅限于音箱,音箱也不会是语音交互的唯一入口。通过语音引擎,车载相关产品将被重新定义。语音车载电子设备曾经因为其差劲的体验一度日薄西山,有了语音技术的加持,现在可能要重新夺回车载场景的中心地位,同时在自动驾驶的场景中也备受期待。以上充分诠释了语音技术应用多而广的特点。

即使语音技术有诸多优点,但是如果想要充分发展语音技术,并借此创造经济收益,必须克服许多障碍,不断创新使用场景。微信家的技术路线则是将语音技术用于自家场景,并赋能自身业务。抛开腾讯进军无人车的雄心壮志不谈,微信智聆将人工智能的语音识别技术更加深入的应用到手机操作的体验中道是可圈可点。在微信的使用过程中,语音转换文字对微信用户来讲是很刚需的场景。不仅如此,这个场景巧妙的回避了语音识别的一大难点,也是远场识别的难点——抗噪。当然速度和精度也是难点,现在很难在很小型的设备上任意的去做语音识别,但是随着智能物联网的发展挑战也会逐步的被克服。

困难一:来自语音数据本身的难点

重要的是:相比模型而言,数据更重要。语音识别需要依赖庞大的数据才能更加完善,一般的开源数据集都会按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类。阿里AliGenie的语料来自于淘宝天猫等阿里生态系统内的数据分享,除此之外也有通过众包方式获得的数据。微信智聆的语音数据通过从网络爬取公开数据、从正规渠道购买合法的第三方数据,以及请人来录制生成数据。与此同时,微信智聆的技术团队更关注数据的覆盖度,包括人群年龄覆盖度(从儿童到老人),噪声场景覆盖度(马路,商场等环境),语言领域覆盖度,口音覆盖度(南北各主要城市口音),中式英文覆盖度(中国人中英混合语言现象)。

更加重要的是,语音识别技术的目标是将人类语音中的词汇内容转换为计算机可读的输入。其中,计算机可读成为重点。语音数据没有人工标注很难用于算法和模型的训练。语音数据的标注又分为多语种标注、噪音标注甚至角色标注。微信智聆的技术团队目前通常的情况是采用有监督学习的方法,也就是说,数据都是有标注结果的。同时,也在尝试一些半监督的方式,比如使用包含字幕的视频文件提取音频来自动训练,以及一些无监督说话人自适应的方法。

语音识别是感知技术这一类里面前沿的技术,有不少观点认为,语音识别技术成熟了,技术难题似乎已经基本被解决了。有趣的是,微信智聆技术团队并不这样认为。他们认为,语音识别并不是已经解决的问题,语音识别的最终目标是任何人,在任何环境,用任何风格,无论大声还是小声,无论是正式还是随意,说任何领域的话,都可以被准确的识别出来才算。然而,这个目标目前并没有做到。业内比较普遍,比较成熟的还是环境基本安静,偏朗读方式的语音,这种情况下可达到较高的识别率,基本达到实用。但是,在碰到以下情况的时候,解决的还不够好:

(1) 环境嘈杂

(2) 远距离

(3) 重口音或纯方言

(4) 口语现象,说的很快,很随意

(5) 领域很相关,比如涉及到某个专业领域大量专有名词。

当然,困难是语音识别赋能社会的机遇。在解决这些问题后,语音识别可走入千家万户与千行万业,真正成为提升社会效率的一个有力工具。

困难二:取得革命性突破的深度学习框架不能解决所有问题

深度学习的研究方法在自然语言处理领域占主导地位,2017年阿里巴巴人工智能实验室的进展是:经机器翻译,深度学习的方法比传统研究方法有很大提高;语言生成模型及其应用(写诗、写歌);语义理解——用深度学习来有效理解用户意图和实体抽取。技术团队用递归神经网络去进行语义编码,再加上一层卷积层来看到更多的全局信息。在这方面,微信智聆的进展是:核心技术采用了深度学习神经网络LDNN结构,在解码空间,技术团队使用了大数据量训练的语言模型来尽可能覆盖更多的语言现象,同时使用了GPU进行推理,大大提升了效率。在提高正确率方面,通过统计模型在语音识别结果上做一些文本顺滑类的工作,尽可能去保证句子的主干是识别正确的。

尽管采用了深度学习的技术,但语音识别技术仍然避免不了错误,偶尔的会有一些语音识别的错误出现,而开发者的任务就是使得它能够像人一样,在有错误的时候去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。

更为有趣的是,在速度方面,思必驰之前提到过一个统计数据,语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度约占30%-40%,后面在各种各样的语言空间搜索的速度大体占60%-70%。而在这方面,微信智聆采用的是静态解码网络结构,前向传递在运算过程中占比较大,70%-80%,因此技术团队采用了CPU+GPU异构计算,将大头运算量放到GPU上完成,可显著提升效率。

通常情况下,相比键盘为代表的文字输入,语音要高效很多。这也是目前最被看好的新一代人机交互技术,通用语音识别技术在多种场合都能适用:会场同传或者是电话客服质检、音频关键字检索,甚至英文口语发音评估等。腾讯首先是结合自己的产品发挥作用,赋能了腾讯翻译君、甚至是鼎鼎大名的王者农药。大厂商都在积极推动语音识别为核心的交互平台的运用,希望自己的语音交互平台,会成为下一个iOS、下一个安卓。语音领域的创业公司思必驰、出门问问、Rokid等也正在积极的投入到开放平台的竞争中来。

语音识别技术的混战已成焦土。

领域实力企业

丨出门问问

出门问问成立于 2012 年,拥有自主研发的语音交互、智能推荐、计算机视觉及机器人 SLAM 等技术,主营业务为 AI 消费电子产品、跨平台语音交互技术提供方。出门问问发布了问问手表 Ticwatch、问问音箱 Tichome、小问音箱 Tichome Mini、与大众汽车集团合资成立的问众智能的问问魔镜 Ticmirror、问问魔眼 Ticeye 等产品。2017 年 4 月出门问问与大众汽车集团成立合资公司问众智能,同年成为 Google Android Wear 中国官方运营伙伴。截至 2017 年 4 月,出门问问共完成六轮融资,累计融资额超 2.55 亿美元。

丨思必驰

成立于 2007 年,是国内领先的语音交互人工智能公司,为物联网及相关垂直领域提供自然语言交互解决方案,包括 DUI 全链路智能对话定制平台、人机对话操作系统、人工智能芯片模组等,并在赋能智能硬件终端后,丰富后端服务资源,满足用户的产品体验和任务型需求。2017 年,思必驰与公安部第三研究所在智能语音产品符合性测试技术研究上达成合作,与深圳市沃特沃德股份有限公司共同打造基于智能语音交互的智能硬件产品综合解决方案。知识产权方面,截至 2017 年年底,思必驰共拥有专利 231 项。

丨科大讯飞

成立于 1999 年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。2017 年,哈工大讯飞实验室 (HFL) 获得斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset) 机器阅读理解挑战赛全球第一名,这是中国本土研究机构首次取得赛事榜首;8 月,在国际医学影像领域的权威评测 LUNA 上,科大讯飞获得平均召回率 92.3% 的检测效果,以显著优势刷新世界记录。10 月,在国际自动驾驶领域权威评测集 Cityscapes 中,科大讯飞获得平均 81.4% 的精度,刷新了世界纪录。

丨搜狗

在搜索、输入法和浏览器之后,人工智能将是搜狗下一阶段的重要战略。语音交互和知识计算是搜狗的发展重心和技术长项,在 2017 年,搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军。在人工智能技术战略上有两大产品,知音 OS 和深智引擎(指知识计算)。知音 OS 是构架于知音引擎核心技术上的完整产品解决方案。深智引擎是知识计算平台,集成了包括智能问答、对话服务、机器翻译、图像识别与 OCR、语音识别与合成、智能客服等在内一系列以语言为核心的知识计算技术。

猜你喜欢

转载自blog.csdn.net/yyaannnnnnnn/article/details/129899723
今日推荐