《人机交互技术》第四章 人机交互技术概述

第四章 人机交互技术概述

1.人机交互的输入模式(第二版)

       由于输入设备是多种多样的,而且对一个应用程序而言,可以有多个输入设备,同一个设备又可能为多个任务服务,这就要求对输入过程的处理要有合理的模式。

     请求模式(Request Mode):在请求模式下,输入设备的启动是在应用程序中设置的。应用程序执行过程中需要输入数据时,暂停程序的执行,直到从输入设备接受到请求的输入数据后,才继续执行程序。应用程序和输入设备交替工作。

     采样模式(Sample Mode):输入设备和应用程序独立地工作。输入设备连续不断地把信息输入进来,信息的输入和应用程序中的输入命令无关。应用程序在处理其它数据的同时,输入设备也在工作,新的输入数据替换以前的输入数据。当应用程序遇到取样命令时,读取当前保存的输入设备数据。优点:这种模式对连续的信息流输入比较方便,也可同时处理多个输入设备的输入信息。缺点:当应用程序的处理时间较长时,可能会失掉某些输入信息

     事件模式(Event Mode):输入设备和程序并行工作。输入设备把数据保存到一个输入队列,也称为事件队列,所有的输入数据都保存起来,不会遗失。应用程序随时可以检查这个事件队列,处理队列中的事件,或删除队列中的事件。

2.基本交互技术(第二版 P60)

  • 定位

        确定平面或空间的一个点的坐标,是交互中最基本的输入技术之一,是图形交互技术最基本的输入原语。

        直接定位:用定位设备直接指定某个对象的位置,是一种精确定位方式。例如光笔指定一个点、直接输入坐标

        间接定位:通过定位设备的运动控制屏幕上的映射光标进行定位,是一种非精确定位方式。其允许指定的点位于一个坐标范围内,一般用鼠标等指点设备配合光标来实现。例如选择子图或者菜单

  • 笔画

        笔画输入用于输入一组顺序的坐标点。它相当于多次调用定位输入,输入的一组点常用于显示折线或作为曲线的控制点。

        例如鼠标、轨迹球、游戏棒

  • 定值

        定值(或数值)输入用于设置物体旋转角度、缩放比例因子等。

        键盘输入数值、绘制刻度尺和比例尺

  • 选择

        选择是在某个选择集中选出一个元素,通过注视、指点或接触一个对象,使对象成为后续行为的焦点,是操作对象时不可缺少的一部分。例如菜单上选择一个命令、对话框选择一个选项等。

  • 字符串

        键盘是目前输入字符串最常用的方式,现在用写字板输入字符也已经很流行。

3.图形交互技术(第二版 P63)

  • 几何约束

        几何约束可以用于对图形的方向、对齐方式等进行规定和校准。

        第一种几何约束是对定位的约束:在屏幕上定义一个网格,强迫输入点落在网格交点上,用户输入一个点,得到的是离它最近的一个网格点。    

        第二种几何约束是对方向的约束:例如要绘的垂直或水平方向的线,当给定的起点和终点连线和水平线的交角小于45°时,便可绘出一条水平线,否则就绘垂直线。绘制印刷线路板、管网图或地籍图时非常有用。

  • 引力场

       线段端点之间连接另外的线段。

        引力场也可以看作是一种定位约束,通过在特定图素(如直线段)周围假想有一个区域,当光标中心落在这个区域内时,就自动地被直线上最近的一个点所代替,就好像一个质点进入了直线周围的引力场,被吸引到这条直线上去一样。

  • 拖动

        不是简单地用光标指定新位置的一个点,而是当光标移动时拖动着被移动的对象,使用户感到更直观。

        图形模式:图形的重新绘制

        图像模式:图像的整体移动

  • 橡皮筋技术

        被拖动对象的形状和位置随着光标位置的不同而变化,用于画直线、矩形、圆、圆弧和自由曲线等。

  • 操作柄技术

        可以用来对图形对象进行缩放、旋转、错切等几何变换。先选择要处理的图形对象,该图形对象的周围会出现操作柄,移动或旋转操作柄就可以实现相应的变换

  • 三维交互技术

        三维交互技术采用六自由度输入设备。所谓六自由度,指沿三维空间X、Y、Z轴平移和绕X、Y、Z轴旋转。

        直接操作:通过三维光标实现选择并直接操作虚拟对象;需要大量计算,对硬件要求高

        三维Widgets:三维交互界面的小工具(漂浮菜单、手、平移和旋转指示器)

        三视图输入:二维输入设备在一定程度上实现三维输入

4.多通道交互技术

(1)多通道用户界面(Multimodal User Interface MUI)(第一版 P70)

       为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varingmedia),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。

定义:

       为了消除当前WIMP/GUI 用户界面通信带宽不平衡的瓶颈,综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以自然、并行、协作的方式进行人机对话,通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性。

目标:

       交互的自然性:降低认识负荷

       交互的高效性:发挥人机不同的认知潜力

       与传统用户界面(WIMP/GUI)兼容

基本特点:

Ø  使用多个感觉和效应通道

感觉通道侧重多媒体信息的接受,效应通道侧重交互过程中控制与信息的输入,二者相互配合。

Ø  允许非精确的交互

人类语言具有高度的模糊性,容许使用模糊的表达手段可以避免不必要的认识负荷。

Ø  三维和直接操纵

人类的大多数活动领域具有三维和直接操纵特点,多通道人机交互的自然性反应了这种本质特点。

Ø  交互的双向性

人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等。

多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率。

Ø  交互的隐含性

追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明。例如,用户的视线自然地落在所感兴趣的对象之上;又如,用户的手自然地握住被操纵的目标

(2)多通道交互技术(第一版 P75)

²  眼动跟踪

眼动有三种主要形式(在人机交互中,眼动跟踪主要利用跳动和注视:

跳动(Saccades):在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃。在注视点之间的飞速跳跃称为眼跳动。 

注视(Fixations):停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会超过1°视角。绝大多数信息只有在注视时才能获得并进行加工。

平滑尾随跟踪(Smooth Pursuit):缓慢、联合追踪的眼动通常称为平滑尾随跟踪。

分类:

       以硬件为基础的视线跟踪:利用红外发光二极管发出红外线,采用图像处理技术和能锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况,得到视线变化的数据,从而达到视线追踪的目的。

       以软件为基础的视线跟踪:先利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和人眼的定位与跟踪,从而估算用户在屏幕上的注视位置。人的注视方向可以用头的方位和眼睛的方位两种方式来表示。

²  手势识别手势是人的上肢(包括手臂、手和手指)的运动状态。

手势的分类:

交互性手势与操作性手势:手的运动表示特定的信息(如乐队指挥),靠视觉来感知;操作性手势不表达任何信息(如弹琴)。

自主性手势和非自主性手势:自主性手势与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息)。

离心手势和向心手势:离心手势直接针对说话人,有明确的交流意图,向心手势只是反应说话人的情绪和内心的愿望。

识别手势的手段有:

鼠标器和笔:优点是仅利用软件算法来实现,从而适合于一般桌面系统;缺点是只能识别手的整体运动而不能识别手指的动作。

数据手套:主要优点是可以测定手指的姿势和手势;相对而言较为昂贵,并且有时会给用户带来不便。

计算机视觉:利用摄像机输入手势,优点是不干扰用户;在技术上存在很多困难,还难以胜任手势识别和理解的任务。

技术:

模板匹配技术:一种最简单的识别技术,将传感器输入的原始数据与预先存储的模板进行匹配,通过度量两者之间的相似度完成识别任务。

神经网络技术:一种较新的模式识别技术,具有自组织和自学习能力,具有分布性特点,抗噪声能力比较强,能处理不完整的模式,并具有模式推广能力。 

统计分析技术:通过统计样本特征向量来确定分类器的一种基于概率的分类方法。在模式识别中一般采用贝叶斯极大似然理论确定分类函数。

²  语音识别

概念:

语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术,目前主流的语音识别技术是基于统计的模式识别的基本理论。

技术:

       数字化语音信号的转换和量化涉及到信号表示问题:需要研究如何使系统在传感器与环境的变化中保持性能的稳定,以适应这些变化。

各种语音必须被恰当地建模:目前采用的最广泛的建模技术是隐马尔科夫模型(HMM)

语言的约束问题。

²  表情识别

步骤:

       表情的跟踪:以某种方式将表情信息从外界摄取出来。

表情的编码:即对面部表情进行编码。基于面部运动确定表情的思想,面部动作编码系统(FacialAction Coding System,FACS),它是基于对所有引起面部动作的脸的“动作单元”的枚举编制而成的。

表情的识别:面部表情的识别可以通过对FACS中的那种预定义的面部运动的分类来进行,而不是独立地确定每一个点。

²  手写识别

分类:

       脱机(off-line,又称离线)识别:脱机识别就是机器对于已经写好或印刷好的静态的语言文本图像的识别。

联机(on-line,又称在线)识别:联机识别是指用笔在输入板上写,用户一边写,机器一边进行识别,可实时人机交互。包括了预处理、归一化、特征抽取、特征匹配

²  汉字识别

识别方法:

       结构识别:出发点是汉字的组成结构,把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定以及基于符号运算的匹配算法,实现对复杂模式的识别。

统计识别:将汉字看为一个整体,其所有的特征是从整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。

神经网络:神经网络具有学习能力和快速并行实现的特点,因此可以通过神经网络分类器的推广能力准则和特征提取器的有效特征提取准则,对手写字符进行识别。

²  数字墨水

数字墨水是一种新的人机界面技术,它借鉴手写识别技术的同时,克服了它的许多局限性。数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。

猜你喜欢

转载自blog.csdn.net/shujian_tianya/article/details/80723659