本文链接： https://blog.csdn.net/plusli/article/details/102685100

一、基本概念

1.什么是机器人bot

机器人是一个对话式界面，这种新的用户界面允许用户通过移动应用或设备与服务商互动，以获得产品和服务。
关于机器人的一个常见的错误观点是“机器人就是一种服务”，而其实它只是服务的一个界面。

2.GUI、VUI与CUI

1）GUI, Graphical User Interface, 图形化交互，自从80年代苹果推出第一款搭载GUI的电脑后，至今为止GUI一直是人机交互的代表。它为用户提供可视化的界面，将内容信息通过视窗、菜单、标签、按钮等控件以图形方式显示给用户。

2）VUI，Voice User Interface，语音交互/语音用户界面。语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。
VUI的发展有两个重要时期：

VUI第一时期：交互式语音应答IVR系统代表了VUI的第一个发展时期，它诞生于70年代并在2000年普及。主要是通过电话线路理解人们的话并执行相应任务。
VUI第二时期：我们正在处在的时期是VUI的第二时期，人们通过自然语言与计算机进行交互，主流的语音产品有结合视觉和语音的app，例如苹果Siri、微软Cortana等，除了这类手机语音助手，还有很多APP（例如搜索、地图、购物、输入法、视频游戏等）和设备（例如汽车、智能手表、手环等）都可以应用语音交互。还有以语音为主的设备，例如Amazon Echo、Google Home这类家庭助理。下文会有关智能交互产品的一些案例介绍。

3）CUI，Conversational User Interface，对话式交互。跟语音交互相比，CUI的范畴更宽泛。但是没有语音过程、只有文字的对话交互流程，可以称为CUI，但是不能称为“语音”交互。一些不适合使用语音作为交互方式的场景，比如开放的办公场景，通常采用基于文本或其他非音频的富交互/富控件来进行对话。

4）多模态交互（VUI+GUI)
将视觉和语音结合已经不是新鲜事，比如手机语音助手类产品，而智能音箱类设备也是从开始的没有屏幕到推出屏幕版。使用屏幕的优点在于可以将一些可视化列表在屏幕中展示，能降低用户的认知难度; 二来可以用来确认用户的选择。

二、语音交互产品主要应用场景

有哪些适合使用语音交互的场景呢？下图是KPCB 2016年互联网报告中，美国使用语音助手的主要原因和场景。在场景方面，家居场景占比最高43%，其次是车载场景36%，随身场景19%以及办公场景3%。

下面是对主要应用场景的简要分析和举例。

1.家居场景

家居场景的语音产品主要集中在家庭娱乐、家居控制、医疗健康和陪伴教育。典型的设备有智能音箱、智能电视、空调、机器人等。

1）智能音箱
智能音箱是智能家居的核心入口，近年来产品发布如下图：

图中列举了主要智能家居语音助手的产品发布，在2018年3月美国语音助手市场中，Amazon Echo的市场份额依然达到61.9%（相较之前的70.6%有所下降），Google Home 占26.6%，其他厂家包括苹果、Sonos等占剩下的11.5%。

根据Voicebot的调查报告显示，用户使用智能音箱使用最多前三个技能是：听音乐、提问题和查询天气。

2）医疗健康-老人陪伴机器人
主要用途：陪伴老年人聊天，解决孤单问题。与智能音箱不同的是，它更多关注在老人健康方面。同时也有讲故事听音乐，日程提醒等这类智能音箱类家庭助手的功能。
以色列公司Intuition Robotic 2017年推出的老年陪伴机器人Elli Q

3）儿童教育机器人
儿童教育和陪伴机器人结合了语音交互功能，市场目标用户是K12阶段的人群（3-18岁），主要用途是儿童娱乐、互动和教育启蒙。目前已经是一片红海。部分产品如下图：

其中在这个领域市场估值第一梯度的优必选，从2014年到2018年获得了4次投资。它的机器人悟空是与腾讯合作，通过腾讯云小微"叮当"开放平台构建的语音对话机器人。

2.车载场景

车载场景的语音产品主要用途在路线导航、周边搜索和目的地推荐。典型的设备是整车系统、后视镜、行车记录仪等设备。通过车载语音交互，释放驾驶员的手和眼，让司机专注于路况。
下图是“出门问问”推出的车载机器人：问问魔镜

3.随身/移动场景

1）APP移动应用类
随身场景中最典型的智能手机上的语音助理，像Siri、Google Now、Hound和Cortana等。现在还有很多APP中都有语音交互功能，如搜索、地图、购物、输入法、视频游戏等。

百度地图

今年10月1日，百度地图公布其语音助手用户量累计突破3亿。最大变化是来自语音请求的大幅增长。百度地图可以为用户提供智能推荐交通搭配、预测拥堵、调整出行时间及路线等服务，可查询天气、事故，热门景点和停车场推荐等。这些场景都能与语音交互很好的结合。

浦发银行信用卡APP-“浦大喜奔”
今年“浦大喜奔”APP接入了智能语音助手，用“小浦小浦”唤醒词，能为用户的高频操作提供服务，例如还款、查账、查额度、查积分、每日签到等。

2）设备类
除了APP类，还有典型的硬件设备智能耳机、手表、手环等。主要应用在户外运动、路线导航和周边搜索。

4.办公场景/企业应用

语音/聊天机器人在企业运营方面，特别是帮助改善客户和员工体验方面也是强需求的。对于解决客户问询、指引、信息录入等重复性工作，由语音交互产品或者服务类机器人代劳，可以释放人力资源。
目前常见的有智能客服机器人，如这领域深耕多年的是智臻智能–小i机器人，创新企业有智齿客服，BAT类互联网巨头的有阿里小蜜、百度夜莺、网易七鱼等。

三、VUI设计的相关问题

1.为什么使用VUI

1）解放双手和眼睛。双手被占用，或者眼睛盯着其他地方无法集中在屏幕时，通过语音与计算机交互是最好的方式。例如驾车场景就具有强需求，双手固定在方向盘，双眼需要看路况，利用语音交互可以获得司机想要的信息/服务。除了日常生活，也可以为特殊人群服务。

2）更快得到结果。用语音听写文本消息比打字、操作鼠标更快。

3）贴近本能。每个人都知道如何说话，不论对技术是否熟悉。比如小孩只要会说话，就能用自然语言向语音产品进行提问。根据数据统计，Siri类手机语音助手的用户群体中粘性是最高的小孩子。

4）无界面限制，避免混乱的菜单。语音产品的任务处理是单一线性的，没有产品架构的限制，与GUI产品相比，免去了二维界面下的信息架构复杂性问题。能极大简化用户的操作流程，为生活提供更多的便捷性。

5）亲切人性化。自然语言中包含了语气、音量、语调和语速等特征，这些特征传达了大量的信息，能让你知道对方的情绪，从而更好的进行对话。而这些特征通过文字是很难理解的。

在KPCB 2016互联网报告中，使用语音交互的原因中“有趣/酷”占比22%，但在语音产品在现在越来越常见，很多人在新鲜感过去后，会对语音交互失去兴趣，回归到触控为主的交互方式中。有趣已经无法成为语音类产品的核心价值，而用途不明确和缺少实用性，是用户弃用或不怎么使用产品的首要原因。

2.不适合使用VUI的场景有哪些

1）公共场所。首先在多人开放的空间，这种情况下由于背景噪音，或是有多个用户一起说话，造成语音识别率低。且出于隐私和信息安全考虑（比如助理提醒你吃药，或者APP让你输入身份证信息等），也不适合在公共场所使用语音。

2）用户不适应对计算机讲话。由于习惯问题，用户不一定习惯对计算机大声说话，如果是此类用户则不适合用VUI。

3）一些人更喜欢打字。打字输入的惯性强大，在手机端语音的使用一定程度上要考虑打字和输入的配合。

四、VUI设计的挑战

1.“无边界”设计
VUI的最大挑战之一是告诉用户可以让语音产品做什么。
在GUI设计中用户所有可能的操作都能展示在屏幕上，你能看到哪些按钮可以点击那些菜单可以打开，而对于语音界面来说，功能都是不可见的，不可能让用户通过视觉的方式来探索功能。用户的输入信息是无法穷举且没有边界的。

2.“多场”交互的设计
语音交互涵盖了近场识别、中场识别和远场识别三种情况。远场交互产品与GUI设计的差异大，而且设计难度大。目前的VUI设计主要在中场和远场交互中发力，中场包括车载语音系统，远场交互有智能音箱等智能家居产品。

3.语音识别准确率
各家公司宣传的语音识别率达97%一般是需要用户安静环境下，近距离、清晰发音条条件下才能达到的。而在真实使用场景中，因为空间距离、背景噪音、人声干扰、回声等问题，目前远场识别的错误率是近场识别的2倍左右。
一些语音识别率不够好的场景有：

车载场景，存在很大的噪音、多人说话干扰等问题，语音识别效果并不理想;
家庭场景中的远场交互，对远场语音识别技术有较高要求;
一些语料数据少的场景，比如儿童教育机器人，因为儿童的音调高，加上低龄儿童说话的一些口吃、长时间停顿等现象会造成识别困难;
中文和字母数字混合的字符串，目前处理起来也比较困难。

4.语义理解
语音交互设计涉及到自然语言处理技术，目前技术还不完善。无法充分理解用户的输入，就可能造成沟通障碍，降低使用体验，且无法根据用户的上下文和情境去提供个性化服务。

5.多轮对话
目前还有很多语音产品只是做单轮的搜索，没有做到多轮对话。在谷歌的对话交互设计指导中，提到对话基本原则之一：对话中所有元素都应该被连贯的串联在一起。要注意上下文相关性，并对每个对话回合进行理解。VUI要理解上下文和情境，具备多轮对话能力，否则产品实用性方面会停止不前。

6.与用户持续互动的能力
正如前面所说，如果产品只靠语音识别的“有趣/酷”，而没有实用性是无法形成用户粘性的，VUI设计要找到核心场景，持续挖掘用户需求，并为用户创造价值。

参考材料
《语音用户界面设计》by Cathy Pearl
百度2017语音交互体验蓝皮书
2017年亚马逊Echo研究报告
格视智库-中国智能业务与应用白皮书

解构语音交互产品--认知篇

目录