第12章多媒体人机交互技术课件.ppt
第十二章多媒体人机交互技术,第十二章,本章导读,从多媒体技术的角度看,人机交互技术是在计算机具备处理声音、图像、视频等多种媒体信息能力的基础上发展起来的,是多媒体技术的不同应用。另一方面,人机交互技术的研究又促进了多媒体技术的快速发展,充分表现了多媒体技术的交互性。本章将从多媒体信息处理的角度,简单介绍目前已经广泛应用的几种典型的人机交互技术,如触摸技术、手写识别技术、语音识别与合成技术、虚拟现实技术等。同时,还将介绍基于多媒体技术的人机交互界面的发展方向。,本章导读 从多媒体技术的角度看,人机交互技术是在计算机具备,本章主要内容,12.1 人机交互技术概述 12.2 触摸屏技术 12.3 OCR与手写识别技术 12.4 语音识别技术 12.5 语音合成技术 12.6 虚拟现实技术,本章主要内容12.1 人机交互技术概述,12.1人机交互技术概述12.1.1 人机交互简介,人机交互(Computer Human Interaction,CHI)也称HCI(Human Computer Interaction),是研究人、计算机及其相互影响的技术,其核心是人机界面,它是计算机与人之间通信和对话的接口,是计算机系统的重要组成部分。人机交互技术是指通过计算机系统的输入/输出设备,以有效的方式实现人与计算机系统之间信息交流的技术。目前,人们已经能够与计算机系统较为方便地进行交互,具体应用的交互技术有键盘交互、手写文字交互、语音交互、图像与视频交互、多语言交互、虚拟现实系统中的交互等。,12.1人机交互技术概述 人机交互(Compute,12.1.2 多模态人机交互,1、模态 是心理学领域中的一个标准术语,指感知信息的感觉,也就是感觉模态。2、多模态人机交互 多模态(Multimodality)人机交互,就是基于智能接口技术,充分利用人的多种感知通道,以并行的、非精确的方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性。,12.1.2 多模态人机交互1、模态,3、多模态人机交互的研究内容,1)语音识别、2)理解及合成、3)手势识别技术、4)人脸的研究、5)唇读的研究、6)人体动作的研究。,3、多模态人机交互的研究内容 1)语音识别、,4、多模态人机交互的基本特点,1)使用多个感觉和动作模态;2)三维的和直接操纵的要求;3)允许模糊交互;4)交互双向性;5)交互的隐含性;,4、多模态人机交互的基本特点 1)使用多个感觉和动作模态,12.1.3 可视化,可视化是指充分利用人们对可视模式快速识别的自然能力,将数据信息和知识转化为一种视觉形成的过程。,12.1.3 可视化 可视化是指充分利用人们对可视模式,12.1.4 新型人机界面的主要特征,1)人性化 2)自然化 3)智能化4)高带宽 5)不限制地点 6)图示编程,12.1.4 新型人机界面的主要特征1)人性化 2)自,12.2触摸屏技术12.2.1 触摸屏简介,触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置。用户可以直接用手指触摸屏幕以实现与计算机的交互。工作过程:手指或其他物体触摸触摸屏 触摸屏控制器检测位置(以坐标形式)通过计算机接口送到CPU确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。,12.2触摸屏技术 触摸屏是一种定位装置,安装在显示,触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置;用户可以直接用手指触摸屏幕以实现与计算机的交互;工作过程:手指或其他物体触摸触摸屏,触摸屏控制器检测位置(以坐标形式),通过计算机接口送到CPU,以确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。,12.2触摸屏技术12.2.1 触摸屏简介,触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指,12.2.2 触摸屏的主要类型,矢量压力传感技术触摸屏电阻技术触摸屏电容技术触摸屏红外线技术触摸屏表面声波技术触摸屏 等五种类型。其中矢量压力传感技术触摸屏已经被淘汰。,依据所采用的技术原理,触摸屏可分为:,12.2.2 触摸屏的主要类型矢量压力传感技术触摸屏依据所,1、电阻式触摸屏,如右图,当手指接触屏幕,两层 OTI导电层出现一个接触点,因其中一面导电层接通Y轴方向的5V均匀电压场,使得侦测层的电压由零变为非零,控制器侦测到这个接通后,进行A/D转换,并将得到的电压值与5V相比,即可得触摸点的Y轴坐标,同理得出X轴的坐标。从而实现屏幕定位。,图12-2 电阻式触摸屏,1、电阻式触摸屏 如右图,当手指接触屏幕,两层 OTI导电,2、电容式触摸屏,如右图,用户触摸屏幕时,由于人体电场,手指与导体层间会形成一个耦合电容,四边电极发出的电流会流向触点,而电流强弱与手指到电极的距离成正比,位于触摸屏幕后的控制器便会计算电流的比例及强弱,准确算出触摸点的位置。,图12-3 电容式触摸屏,2、电容式触摸屏 如右图,用户触摸屏幕时,由于人体电场,3、红外线式触摸屏,红外线触摸屏由装在触摸屏外框上的红外线发射与接收感测元件构成,在屏幕表面上,形成红外线探测网,任何触摸物体可改变触点上的红外线而实现触摸屏操作。具体实现:在显示器上加上光点距离框,光点距离框的四边排列了红外线发射管及接收管,在屏幕表面形成一个红外线网(如图11-4所示)。,当手指触摸屏幕某一点时,便会挡住经过该位置的横竖两条红外线,计算机便可即时算出触摸点位置。,图12-4 红外线触摸屏,3、红外线式触摸屏 红外线触摸屏由装在触摸屏外框上的红,4、表面声波触摸屏,表面声波触摸屏由触摸屏、声波发生器、反射器和声波接收器组成,其中声波发生器能发送一种高频声波跨越屏幕表面,当手指触及屏幕时,触点上的声波即被阻止,由此确定坐标位置。,图12-5 表面声波触摸屏,4、表面声波触摸屏 表面声波触摸屏由触摸屏、声波发生器,12.2.3 触摸屏的基本技术特性,触摸屏通常应具备以下三个基本技术特性:,1、透明性能 2、绝对坐标系统 3、检测与定位,12.2.3 触摸屏的基本技术特性 触摸屏通常应具备以下,12.3 OCR与手写识别技术,12.3.1 OCR识别技术,OCR(Optical Character Recognition,光学字符识别)技术,是通过扫描等光学输入方式将文字转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本信息的计算机输入技术。广泛应用于大量文字资料、票据、档案卷宗、文案的录入和处理等领域。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。,12.3 OCR与手写识别技术12.3.1 OCR识别技,OCR的基本工作过程分为图文扫描、预处理、单字识别、后处理以及文档输出等五个环节,如图12-6所示。,图12-6 OCR的基本工作原理示意,OCR的基本工作过程分为图文扫描、预处理、单字识别、,12.3.2 手写识别技术,手写识别通过提取手写内容的结构特征来分割和识别字符,从而达到手写输入的目的。,1、手写输入,手写输入是把要输入的字符写在一块叫书写板的数字化设备上,这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,通过手写识别技术,将手写内容识别成相应的字符内容(如汉字、数字、字母等),从而达到手写输入的目的。,12.3.2 手写识别技术 手写识别通过提取手写内容的结,2、手写识别,就汉字识别而言,其方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。,结构识别方法:其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。,2、手写识别 就汉字识别而言,其方法基本上分为统计识别、,3、影响识别率的因素,目前影响识别率的因素主要有以下几个方面:,1)笔顺问题 2)连笔问题 3)相似字区分 4)对抗干扰能力的要求,3、影响识别率的因素目前影响识别率的因素主要有以下几个方面:,12.4 语音识别技术12.4.1 语音识别技术简介,语音识别(ASR:Automatic Speech Recognition)技术,是指通过计算机的识别和理解过程,将语音信号转换为相应的文字信息,从而识别说话人的语音指令以及文字内容的技术。语音识别是一个多学科交叉的研究领域,涉及语言学、认知科学以及计算机科学等多个学科。语音识别技术与语音合成技术的结合,使人和计算机之间能够实现双向语言交流,摆脱键盘对人机交互方式的束缚。,12.4 语音识别技术 语音识别(ASR:Auto,12.4.2 语音识别的技术原理,语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。声学模型与模式匹配(识别算法):声学模型通常通过学习算法来获取语音特征。在识别时将输入的语音特征同声学模型进行匹配与比较,得到最佳的识别结果。语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。,计算机的语音识别过程与人对语音的识别处理过程基本上是一致的。目前主流的语音识别技术是建立在统计模式识别基本理论之上的,其语音识别系统可大致分为三部分:,12.4.2 语音识别的技术原理语音特征提取:其目的是从语,12.5 语音合成技术12.5.1 语音合成技术简介,语音合成(Speech synthesis,或Text To Speech)技术,是指将文本信息转变为语音数据,再以语音的方式播放出来的技术,通常被简称为TTS技术。一个典型的语音合成系统可分为文本分析、韵律建模和语音合成三大模块,主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。,12.5 语音合成技术 语音合成(Speech sy,12.5.2 语音合成的技术方法,语音合成(让计算机说话)的基本思路有两种:一种是参数模拟合成,一种是波形拼接合成。参数模拟合成:是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器。波形拼接合成:是将要合成的语音信息分割成大量不同的语音信息元,并以数字形式存储,合成时根据具体内容和要求,选择适当的语音信息元进行拼接,从而形成所需的语音信息。,12.5.2 语音合成的技术方法 语音合成(让计算机说,12.5.3 语音合成技术的应用与发展方向,语音合成技术可广泛应用于语音数据查询、语音提示、电话银行、语音信箱、语音邮件、语音新闻发布、语音广播等各类语音业务,提供更加人性化的人机交互方式。语音合成技术的发展方向:1)提高合成语音的自然度 2)丰富合成语音的表现力 3)降低语音合成技术的复杂度 4)多语种文语合成,12.5.3 语音合成技术的应用与发展方向 语音合成技,12.6 虚拟现实技术 12.6.1 虚拟现实技术简介,虚拟现实(Virtual Reality)是利用计算机生成一种模拟环境,通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。虚拟现实技术的研究内容涉及到人工智能、计算机科学、电子学、传感器、计算机图形学、智能控制、心理学等。虚拟现实技术的特点在于,计算机产生一种人为虚拟的环境,这种虚拟的环境是通过计算机图形构成的三维空间,或是把其它现实环境编制到计算机中去产生逼真的“虚拟环境”,从而使得用户在视觉上产生一种沉浸于虚拟环境的感觉。,12.6 虚拟现实技术 12.6.1 虚拟现实技术简介,12.6.2 虚拟现实系统,1、虚拟现实系统的典型模型,如右图所示。使用者通过传感装置直接对虚拟环境进行操作,并得到实时三维显示和其它 反馈信息(如触觉、力觉反馈等)。当系统与外部世界通过传感装,置构成反馈闭环时,在用户的控制下,用户与虚拟环境间的交互可以对外部世界产生作用(如遥操作等)。,图12-7 虚拟现实系统的模型,12.6.2 虚拟现实系统 1、虚拟现实系统的典型模型,2、虚拟现实系统的构成,一般的虚拟现实系统主要由以下五个模块构成,如下图所示。,图12-8 虚拟现实系统的构成,2、虚拟现实系统的构成 一般的虚拟现实系统主要由以下五,检测模块:检测用户的操作命令,并通过传感器模块作用于虚拟环境。反馈模块:接受来自传感器模块信息,为用户提供实时反馈。传感器模块:一方面接受来自用户的操作命令,并将其作用于虚拟环境;另一方面将操作后产生的结果以各种反馈的形式提供给用户。控制模块:对传感器进行控制,使其对用户、虚拟环境和现实世界产生作用。建模模块:获取现实世界组成部分的三维表示,并由此构成对应的虚拟环境。,检测模块:检测用户的操作命令,并通过传感器模块作用于虚拟环境,12.6.3 虚拟现实技术的特征,1)多感知性:除了一般计算机所具有的视觉感知外,还有听觉感知、力觉感知、触觉感知、运动感知、甚至包括味觉感知、嗅觉感知等。理想的虚拟现实就是应该具有人所具有的感知功能。2)存在感:指用户感到作为主角存在于模拟环境中的真实程度。理想的模拟环境应该达到使用户难以分辨真假的程度。3)交互性:指用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度(包括实时性)。4)自主性:指虚拟环境中物体依据物理定律动作的程度。,12.6.3 虚拟现实技术的特征 1)多感知性:除,12.6.4 虚拟现实的关键技术,就现有的虚拟现实系统而言,其关键技术可以包括以下几个方面:,1、动态环境建模技术 动态环境建模技术的目的是获取实际环境的三维数据,并根据应用的需要,利用获取的三维数据建立相应的虚拟环境模型。三维数据的获取可以采用CAD技术(有规则的环境),而更多的环境则需要采用非接触式的视觉建模技术,两者的有机结合可以有效地提高数据获取的效率。2、实时三维图形生成技术 关键是“实时”生成。,12.6.4 虚拟现实的关键技术 就现有的虚拟现实系,3、立体显示和传感器技术,4、应用系统开发工具5、系统集成技术,现有的虚拟现实外设还远远不能满足系统的需要,例如,数据手套(如下图所示)有延迟大、分辨率低、作用范围小、使用不便等缺点;有必要开发新的三维显示技术。,3、立体显示和传感器技术4、应用系统开发工具 现有的虚,12.6.5 虚拟现实技术的应用领域,1、遥控机器人的遥现技术 2、各类仿真技术 1)飞行仿真系统 2)与虚拟生物对话 3)作战仿真系统 3、对象可视化技术 1)虚拟风洞2)虚拟物理实验室3)虚拟电力控制室,12.6.5 虚拟现实技术的应用领域 1、遥控机器人的遥,本章小结,本章主要介绍了人机交互的基本概念、现有的人机交互技术以及新型人机界面的主要特征等内容,较为全面地概括了多媒体计算机系统或多媒体终端(PDA、多媒体手机等)的人机交互形式和途径。通过学习本章,应掌握人机交互的基本概念、人机交互的研究内容以及新型人机界面的主要特征等内容,并对目前的各种人机交互技术(触摸屏技术、OCR技术、手写识别技术、语音识别与合成技术、虚拟现实技术等)有所了解。主要包括以下内容:,本章小结 本章主要介绍了人机交互的基本概念、现有的人机,1)人机交互技术是指通过计算机系统的输入/输出设备,以有效的方式实现人与计算机系统之间信息交流的技术。它包括机器通过输出设备给人提供大量有关信息和操作导向,人通过输入设备向计算机输入操作信息等。从第一台计算机诞生到现在,人与计算机之间的交互方式经历了手工操作、字符用户界面(命令语言)、可视化的图形用户界面(GUI)3个阶段,人们操作使用计算机的直观性有了明显的改善。2)多模态(Multimodality)人机交互,就是基于智能接口技术,充分利用人的多种感知通道,以并行的、非精确的方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性。,1)人机交互技术是指通过计算机系统的输入/输出设备,,3)计算机系统中的可视化主要包括操作过程可视化、科学计算可视化和信息可视化3个方面。操作过程可视化是现代操作系统提供人机交互环境的基本要求,它通过GUI技术来实现;科学计算可视化是指运用计算机图形学和图像处理技术,将科学计算过程中的数据转换为图形或图像在屏幕上显示出来,进行交互处理的理论、方法和技术。4)新型人机界面的主要特征是,人机交互更加人性化、自然化、智能化、高带宽,并且不受地点限制。5)触摸屏是一种定位装置,安装在显示屏幕前面,其功能是报告手指(或物体)触摸到屏幕的位置。用户可以直接用手指触摸屏幕以实现与计算机的交互。,3)计算机系统中的可视化主要包括操作过程可视化、科学,6)OCR技术是通过扫描等光学输入方式将各种报刊、书籍、文稿、票据及其他印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本信息的计算机输入技术。OCR的基本工作过程分为图文扫描、预处理、单字识别、后处理以及文档输出等5个环节。7)手写输入是完全以平常的书写习惯,把要输入的字符写在一块书写板的数字化设备上,这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,通过手写识别技术,将手写内容识别成相应的字符内容(如汉字、数字、字母等),从而达到手写输入的目的。,6)OCR技术是通过扫描等光学输入方式将各种报刊、书,8)语音识别技术,是指通过计算机的识别和理解过程,将语音信号转换为相应的文字信息,从而识别说话人的语音指令及文字内容的技术。9)虚拟现实是利用计算机生成一种模拟环境(如飞机驾驶舱、操作现场等),通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。其关键技术主要有:动态环境建模技术,实时三维图形生成技术,立体显示和传感器技术,应用系统开发工具,系统集成技术等。,8)语音识别技术,是指通过计算机的识别和理解过程,将,The End,The End,