人机交互--多通道人机交互课件.ppt
《人机交互--多通道人机交互课件.ppt》由会员分享,可在线阅读,更多相关《人机交互--多通道人机交互课件.ppt(104页珍藏版)》请在三一办公上搜索。
1、2023/3/23,1,第7章 多通道人机交互,2023/3/23,2,本章内容,多通道交互技术概述眼动跟踪三维输入实例介绍,2023/3/23,3,多通道交互技术概述,为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varing media),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径80年代后期以来,多通道用户界面(Multimodal User Interface)成为人机交互技术研究的崭新领域,在国内外受到高度重视,2023/3/23,4,多通道用户界面,消除当前WIMP/GUI用户界面通信带宽不平衡的瓶颈综合采用视线、语音、手势眼
2、神、表情等新的交互通道、设备和交互技术使用户利用多个通道以自然、串行/并行、协作的方式进行人机对话通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性,2023/3/23,5,图51 多通道人机界面概念模型,2023/3/23,6,多通道用户界面研究的目标,多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解交互的自然性使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷;交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力;与传统的用户界面特别是广泛流行的WIMP/GUI兼容,2023/3
3、/23,7,多通道用户界面的基本特点,使用多个感觉和效应通道 允许非精确的交互 三维和直接操纵 交互的双向性 交互的隐含性,2023/3/23,8,使用多个感觉和效应通道,感觉通道侧重于多媒体信息的接受,效应通道侧重于交互过程中控制与信息的输入,两者密不可分、相互配合一种通道(如语音)不能充分表达用户的意图时,需辅以其它通道(如手势指点)的信息;有时使用辅助通道以增强表达力交替而独立地使用不同的通道不是真正意义上的多通道技术,必须允许充分地并行、协作的通道配合关系,2023/3/23,9,允许非精确的交互,人类语言本身就具有高度模糊性,人类在日常生活中习惯于并大量使用非精确的信息交流允许使用模
4、糊的表达手段可以避免不必要的认识负荷,有利于提高交互活动的自然性和高效性多通道人机交互技术主张以充分性代替精确性,2023/3/23,10,三维和直接操纵,人类的大多数活动领域具有三维和直接操纵特点人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及时看到这种控制的结果多通道人机交互的自然性反应了这种本质特点,2023/3/23,11,交互的双向性,人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率视线跟踪系统可促成视觉交互双向性,听觉通道利用三维听觉定位器实现交互双向性,2
5、023/3/23,12,交互的隐含性,追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明用户的视线自然地落在所感兴趣的对象之上用户的手自然地握住被操纵的目标,2023/3/23,13,多通道用户界面评价,基于多通道用户界面所追求的目标,人们提出相应的评价多通道用户界面的若干指标(Nigay等人提出的CARE指标):互补性(complementary);指派性(Assignment);等效性(Equivalence);冗余性(Redundancy);,2023/3/23,14,互补性,互补性是指若干通道必须以互补方式完成特定的交互任务,也就是说,
6、当单个通道不能提供充分的任务信息时,需要其他通道补充,如手势指点补充语音命令互补性可能存在一个“优势通道(Dominant Modality)”,并需要其他通道予以辅助,例如,用语音直指(“This city”),则需鼠标在屏幕对象上指点,2023/3/23,15,指派性,指派性是指某通道是完成特定交互任务唯一途径的情形,即某通道必须被用于实现特定交互任务而没有其他通道可以替代指派性可分为两种情形一种是不存在其他选择,称为严格的指派性(Strict Assignment)另一种是虽然存在选择,但用户或系统总是倾向于使用同一种通道,称为代理指派性(Agent Assignment),2023/3
7、/23,16,等效性,等效性是指在完成特定交互任务时至少有两种以上通道可以互相替代,由于设备特性、用户习惯或临时因素(如手头正忙)而使某种通道不能使用时,可选择其他通道代替。,2023/3/23,17,冗余性,冗余性是指在特定交互中多个通道同时使用并具有相同的表达作用不同通道为相同参数提供所需信息,并且所表达信息可能是一致的,也可能是矛盾的,2023/3/23,18,眼动跟踪(Eye-Gaze Tracking),与视觉有关的人机交互自始至终都离不开视线的控制如果能通过用户的视线盯着感兴趣的目标,计算机便“自动”将光标置于其上,人机交互将更为直接,也省去了上述交互过程中的大部分步骤有关视觉输入
8、的人机界面研究主要涉及两个方面一是视线跟踪原理和技术的研究二是在使用这种交互方式后,人机界面的设计技术和原理的研究,2023/3/23,19,眼动跟踪,早期的视线跟踪技术首先应用于心理学研究、助残等领域,后来被应用于图像压缩及人机交互技术视线跟踪技术有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分视线追踪主要用于军事领域(如飞行员观察记录),阅读及帮助残疾人通信等,2023/3/23,20,图52 Stanford University和The Poynter Institute合作研究 人们对于Internet上新闻的注意程度,2023/3/23,21,图53 人们对于Intern
9、et上新闻的注意程度研究结果,2023/3/23,22,人们对于Internet上新闻的注意程度研究结果,2023/3/23,23,眼动的主要形式,眼动有三种主要形式跳动(Saccades)在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃在注视点之间的飞速跳跃称为眼跳动。注视(Fixations)停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会超过1视角。绝大多数信息只有在注视时才能获得并进行加工。平滑尾随跟踪(Smooth Pursuit)缓慢、联合追踪的眼动通常称为平滑尾随跟踪。,2023/3/2
10、3,24,眼动跟踪的基本要求,在人机交互中眼动跟踪技术必须满足以下几点要求,才能满足实际需求:不能妨碍视野不要与用户接触,对用户基本无干扰 精度要高动态范围要从1弧分(六十分之一弧度)到45 反映速度要快,实时响应能与获取的身体和头部运动相配合 定位校正简单可作为计算机的标准外设,2023/3/23,25,眼动跟踪的基本原理,利用红外发光二极管发出红外线,采用图像处理技术和能锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况,得到视线变化的数据,从而达到视线追踪的目的。从视线跟踪装置得到的原始数据需要经过进一步的处理才能用于人机交互。数据处理的目的是滤除噪声、识别定位及局
11、部校准与补偿等,最重要的是提取出用于人机交互所必需的眼睛定位坐标。但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈的移动所造成的数据中断,存在许多干扰信号,提取有意眼动数据非常困难。解决此问题的办法之一是利用眼动的某种先验模型加以弥补。,2023/3/23,26,米达斯接触问题与解决方法,“米达斯接触(Midas Touch)”问题:如果鼠标器光标总是随着用户的视线移动,可能会引起用户的厌烦,因为用户可能希望能随便看着什么而不必非“意味着”什么,更不希望每次转移视线都可能启动一条计算机命令。避免“米达斯接触”问题的方法:在理想情况下,应当在用户希望发出控制时,界面及时地处理其视输入,而在相反
12、的情况下则忽略其视线的移动。可采用其他通道(如键盘或语音)进行配合。,2023/3/23,27,三维输入,许多应用(如虚拟现实系统)需要三维空间定位技术:三维空间控制器的共同特点是具有六个自由度,分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数,用户可以在屏幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。三维空间控制器、视线跟踪器、数据手套等输入设备产生的空间位置是相对的。在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。,2023/3/23,28,三维空间的交互操作方式,三维光标由六自由度三维输入装置控制的三维光标将使三维交互操
13、作更自然和方便;三维光标必须有深度感,即必须考虑光标与观察者距离:离观察者近的时候较大,离观察者远的时候较小;确定光标在三维空间的方向,这种定向操作必须自然且方便操作;为保持三维用户界面的空间感,光标在遇到物体时不能进入到物体内部。三维光标的实现需要大量的计算,对硬件的要求较高,编程接口也比二维光标复杂得多。,2023/3/23,29,三维空间的交互操作方式,三维widgets三维widgets即三维交互界面中的一些小工具。用户可以通过直接控制它们使界面或界面中的三维对象发生改变。三维widget包括在三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。许多三维用户界面的研究
14、者正在设计和试验各种不同的三维widgets,希望将来能够建立一系列标准的三维widgets就像二维图形用户界面中的窗口、按钮、菜单等。,2023/3/23,30,图55 三维widgets图例,2023/3/23,31,采用三视图输入技术,实现三维的输入,如果输入一个三维点,只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点;把直线段上两端点在三视图上输入后便可决定三维空间的一条直线;把一个面上的各顶点在三视图上输入后,也唯一确定了三维空间中的一个面;如果把一个多面体上的各面均用上述方法输入,也就在三维空间中输入了一个多面体,2023/3/23,32,图56 三视图输入实例,
15、2023/3/23,33,多通道人机交互,通道(Modality)用户可以使用手动、语言、眼神等多种效应通道与计算机系统进行交互,2023/3/23,34,多通道人机交互,通道指传送或获得信息的通讯通道的类型,它包含了信息表达、感知以及动作执行的方式,定义了数据类型模式一种状态或上下文信息,决定对信息的解释一获取意义通道整合(Modality Integration)指用户在与计算机系统交互时,多个交互通道之间相互作用形成交互意图的过程,2023/3/23,35,多通道用户界面的三维表示模型,2023/3/23,36,多通道用户界面的概念模型,2023/3/23,37,人机交互模型的发展,20
16、23/3/23,38,输入原语,为了摆脱设备的特定物理特性和操作方式上的差异,便利多种输入设备在词法级的整合,有必要在物理设备和对话控制中再抽象出一层,即输入原语翻译层与应用无关的输入原语的抽象具有重要意义原语IP(Input Primitive)代表了用户到计算机的词法输入,它是来自不同的通道的独立的、最小的、不可分割的操作,这些原子操作在一定的应用上下文中有着特定的交互意义,2023/3/23,39,输入原语,界面需抽象出一个简单完备的原语集合每个IP可实例化为一个四元组用户动作,数据表示,使用通道,时间标签它体现了某一时刻来自某个输入通道的用户输入动作与一种内部数据表示联系在一起IP是通
17、道无关的,不同的物理通道的输入可以映射到相同的IP二维鼠标的Click动作和眼动跟踪的眼睛凝视动作都可归为指点类IPPOINT;,2023/3/23,40,输入原语,IP是应用无关的,在软件环境的支持下,同一个IP在不同的应用上下文中可被解释为完全不同的操作根据用户的交互意图和交互方式,抽象出六类输入原语浏览(NAVIGATE),指点(POINT),拾取(TOUCH),文本(WORD),变换(TRANSFORM)手势(GESTURE),2023/3/23,41,输入原语,2023/3/23,42,输入原语,2023/3/23,43,用户模型和描述方法,在构建一个多通道界面的结构模型时,以下是问
18、题关键不应该在应用程序中进行多通道整合允许用户完成不同通道与不同功能之间的映射多通道相互作用能在不中断相互作用过程的条件下随时相互启动和终止,2023/3/23,44,用户模型和描述方法,VisualMan 多通道用户界面模型,2023/3/23,45,用户模型和描述方法,交互设备处理直接来自不同通道的输入,系统对每一时刻的全部输入进行加工主要的交互通道包括语音、手和身体的运动以及视觉追综等交互分析根据各通道的特性分析来自不同通道的输入,形成交互的原语完成定位、说明属性和操作。交互分析使原语的说明变得与设备无关通道整合将相同操作维度的原语输入通过整合来完成某项任务的操作,从而做到任务的完成与通
19、道无关不同的物理装置能整合成相同的操作,形成与装置独立的多通道界面,2023/3/23,46,用户模型和描述方法,在这个多道通用户界面模型中,有二个重要的特征值得注意用户对一个特定的操作没有固定的输入顺序各输入的时相(timing)对说明操作维度是非常重要的,2023/3/23,47,用户模型和描述方法,2023/3/23,48,用户模型和描述方法,层次化的多通道界面描述方法HMISLOTOS(Language Of Temporal Ordering Specification)LOTOS算符主要有以下几种:T1|T2(交替Interleaving)T1 T2(选择Choice)T1|a1,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人机交互 通道 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-3830320.html