《汉字输入技术》PPT课件.ppt
《《汉字输入技术》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《汉字输入技术》PPT课件.ppt(108页珍藏版)》请在三一办公上搜索。
1、第五章 汉字输入技术,延边大学计算机科学与技术系,内容,汉字输入技术概述汉字键盘输入技术汉字键盘输入系统Windows汉字输入技术 Linux下的汉字输入系统,一、汉字输入技术概述,汉字输入发展史汉字输入分类 汉字输入技术发展和应用,1、问题提出,早期,计算机主要通过键盘输入文字信息在计算机出现以前,西文打字机的键盘早已定型,计算机很自然地利用了打字机键盘这一录入工具。在键盘上没有汉字,那么如何才能将汉字输入到计算机中?,2、大键盘方案,设计一个汉字大键盘。这个汉字大键盘上有几千个按键,每个按键对应一个汉字,汉字按照偏旁部首在键盘上分区排列,以便于快速检字。大键盘的思想经过实践证明是失败的,它
2、存在的问题主要是在键盘上找字困难,不能输入键盘上没有的汉字,设备本身价格太高等。,3、基于西文键盘的汉字编码输入,这是到目前为止最成功的计算机汉字输入方法。汉字编码输入是最早的汉字输入方法,已知最早的计算机汉字编码输入始于20世纪50年代的俄汉机器翻译研究,但只能用电报码或四角号码做汉字编码。在大陆,1978年5月上海电工仪器研究所部工程师支秉彝创造了一种“见字识码”法,并被上海市内电话局采用,从而率先使计算机的汉字输入进入了实用阶段。在港台及海外,以“王安三角”为发端,陆续涌现出“仓颉”、“呒虾米”、“行列”、“唯物”等一大批繁体汉字输入法。进入80年代后,在联想汉字、四通中文电脑打字机之后
3、中国的汉字编码出现了“万马奔腾”的局面。在大陆涌现出了五笔、自然码、郑码、拼音、智能ABC、智能狂拼、纵横等上千种的输入法。,4、语音输入,用了多年的键盘输入方式,在1997年左右突然受到猛烈的冲击,各大厂商包括IBM、微软、摩托罗拉、中自、紫光等公司纷纷推出自己的非特定人语音输入系统或者连笔字手写输入系统。美国微软公司于1997年9月在北京推出中文非特定人连续语音识别系统ViaVoice。ViaVoice是目前在市场上占据统治地位的语音输入系统。,5、手写体汉字识别输入,通过书写汉字记录信息已经有几千年的历史,这也是使用汉字的中国人的普遍习惯,所以手写识别输入是符合中国人记录信息习惯的。在1
4、997年以后就已经有基本实用的手写汉字识别输入系统,其中佼佼者为中自公司的“汉王99”、摩托罗拉公司的“慧笔”和清华紫光公司的“紫光笔”等。,6、印刷体汉字识别输入,我国对印刷体汉字识别(简称OCR,Optical Character Recognition)的研究始于70年代末80年代初,经过科研人员几十多年的辛勤努力,印刷体汉字识别技术的发展和应用,已经有了长足进步。清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。清华大学电子工程系研制的清华TH-OCR产品,占据着最大的市场份额,代表着中文OCR技术发展的潮流
5、。,内容,汉字输入发展史汉字输入分类 汉字输入技术发展和应用,1、分类,汉字的输入两大类:编码输入自然输入语音识别输入字形识别输入手写体识别输入印刷体识别输入,2、键盘编码输入,键盘编码输入首先把需要输入计算机的所有汉字用键盘上的若干个按键编码,这些按键组成的序列称为对应汉字的输入码。通过在键盘上输入某个按键序列,并由计算机中的输入系统把这个序列转换为对应的汉字,从而达到输入汉字的目的。优点:输入快速、无需添加额外设备缺陷:输入方式和人们使用语言文字的习惯不符、用户需要化额外的时间学习等。,3、语音识别输入,汉字语音识别输入利用产生声音的物理模型,通过语音分析手段,预先将一些语音的特征提取出来
6、,并存储在处理系统中。当语音信号输入时,处理系统根据对该信号所提取的特征参数和所存储的参考特征进行比较,通过逻辑判断方法和“距离”测量法对语音进行识别。,3、语音识别输入(续),自然界的声音和人讲话的语音,都是模拟信号,不能直接输入计算机,因此在语音输入的过程中,我们必须通过语音卡(声卡)等设备,把模拟的语音信号转换为数字语音信号输入计算机。然后计算机利用程序对输入的数字语音信号进行统计、判断和识别,并最终把它翻译成计算机能够理解的汉字的内码信息。语音识别输入技术有着广阔的应用前景缺点:由于不同人的口音差别较大,语音的准确识别比较困难,4、汉字识别输入,汉字识别输入根据模式识别原理,通过汉字的
7、字形信息识别,产生汉字的内码,实现汉字的识别输入。汉字识别输入的原理是通过抽取代表未知汉字模式本质的表达形式与预先存储在计算机中的标准汉字的模式表达形式的集合逐一进行匹配,用一定的准则进行判别,找出最接近输入汉字的那个标准汉字。汉字识别输入技术可分为印刷体汉字识别输入和手写体汉字识别输入两大类。,5、手写体汉字识别输入,手写体识别输入方法把手写字的位置信息首先转换成二进制的数字编码信息,并对手写字进行智能化的识别,并产生与之匹配的数字编码的中文或英文字符,同时所产生的字符也送给显示屏显示,最后经过输入者确认后才作为正确的输入结果。可分为联机手写汉字识别输入和脱机手写汉字识别输入,5、手写体汉字
8、识别输入(续),手写体识别输入难于印刷体识别输入脱机手写体识别输入又难于联机手写体识别输入联机手写体识别输入是一种人工实时地把汉字输入计算机的方法,它利用书写板把笔画变为电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息。脱机手写汉字识别处理的仅是二维的汉字点阵图象,是汉字识别领域中最后一个十分困难的问题,目前仍然处于实验室研究阶段。,5、手写体汉字识别输入(续),6、印刷体识别输入,印刷体识别输入是利用扫描器对已有的文书资料进行扫描,将扫描结果送入计算机中,计算机对所得图像进行去污点和干扰、行字切分
9、、二值化、细化、抽取轮廓、平滑和规范化等处理,然后再由计算机根据所得图像的轮廓与计算机字库中的汉字点阵进行匹配,从而转换成相应的汉字的技术。应用范围:图像处理、桌面排版、印刷出版、字符识别、图文数据库、广告美术设计、多媒体图文通讯和办公自动化等。,6、印刷体识别输入(续),TH-OCR 2000,6、印刷体识别输入(续),内容,汉字输入发展史汉字输入分类 汉字输入技术发展和应用,1、汉字输入计算机的主流技术汉字键盘输入技术,键盘输入使用的是人的十个手指,灵活方便,符合人体工程学原理,绝大多数人愿意接受这一输入方式。键盘输入具有输入快速、省力、方便等其它输入方式无法比拟的优点。随着计算机技术的发
10、展,软件技术弥补了汉字编码的很多不足。句子输入、词组输入、智能输入等技术使键盘汉字输入系统更加好用,输入更加快速方便。,2、广泛的应用途径语音识别输入技术,语音识别技术的渗透性很强,在未来它将无处不在 语音拨号 语音查询 工业控制伤残人设备 家电计算机辅助教育,3、数字化时代的新宠汉字识别输入技术,随着手机的普及应用,“拇指经济”迅速升温,人们越来越寻求短信输入的快捷和方便,手写又成为一种时尚,受到人们的青睐。随着各种掌上型信息终端及各种智能化、数字化产品的普及,在人们生活的许多地方,如掌上电脑、新型智能固定电话、各类平板电脑,甚至是街头的POS机及银行、车站等的触摸屏等,都已大规模地应用了手
11、写输入技术。,二、汉字键盘输入技术,键盘 汉字键盘输入原理键盘汉字输入的总体流程 输入码对照表的设计,1、键盘,1 2 3 4 5 6 7 8 9 10 11 12 13 14,15 16 17 18 19 20 21 22 23 24 25 26 27 43,58 30 31 32 33 34 35 36 37 38 39 40 29,42 44 45 46 47 48 49 50 51 52 53 54,57,69 53 55 74,71 72 73 78,75 76 77,79 80 81 29,82 83,2、扫描码(Scan Code),外部设备必须通过控制器和主机连接,所以键盘本身
12、有一个控制器。键盘控制器完成的主要工作是:加电或系统需要时对键盘进行检测,扫描键盘、消除重键和自动重发,保存扫描代码,与主机进行双向通信,以及向主机传送按键的扫描码(Scan Code)等。所谓扫描码是指根据按键在键盘上的位置按照从左到右,从上到下的原则从1开始给按键编的代码。,3、键盘工作原理,当用户在键盘上按下一个按键后,控制器就能通过扫描矩阵得到按键的位置,从而把这个位置信息转换为该按键的扫描码,并存储在控制器的缓冲区中。然后控制器产生一个键盘的硬件中断,由这个硬件中断通过端口从键盘控制器的缓冲区中取得这个按键的扫描码,并把它转换为对应的ASCII码,最后把2个字节的扫描码和ASCII码
13、存储到计算机内存的键盘缓冲区中,供系统使用。,4、部分扫描码和ASCII码表,表6.1按键扫描码和ASCII码对照表(十六进制),内容,键盘 汉字键盘输入原理键盘汉字输入的总体流程 输入码对照表的设计,1、西文字符的输入,使用的键盘是西文键盘,英文或欧洲语系等拼音文字,由于文字总数一般为几十个,所以键盘上的按键就足以对映到每一个文字。用西文打字时,敲入的按键就可以直接根据当前的代码页(Code Page)转换为西文字符的内码从而显示在当前应用程序的窗口中。如当前是英文键盘,那么在键盘上按下按键“A”后,计算机就可以根据英文键盘的布局把这个按键转换为字符“A”的ASCII码,并送给应用程序,从而
14、在界面上显示这个字符“A”。,2、汉字的编码输入举例,3、汉字编码输入的前提,要实现把输入码转换成机内码这个功能必须具备一个前提条件,那就是输入系统必须先于应用程序得到用户按键的扫描码或ASCII码,否则如果应用程序先得到的话,那它就会对按键进行处理,那样输入系统就没有办法进行工作了。从键盘接收的按键消息是操作系统的I/O模块处理的,它肯定先于应用程序得到按键的扫描码,然后由它负责把这些扫描码转换为ASCII码,存放在键盘缓冲区中,那么只要保证输入系统先于应用程序拿到键盘缓冲区中的内容就可以了。,4、键盘HOOK,一般而言,应用程序从键盘缓冲区读字符,总会调用系统的读字符功能来实现的。通过系统
15、提供的HOOK(钩子)机制来实现输入系统先于应用程序得到键盘按键。键盘hook实现原理:假设原来的读字符功能调用是GetChar()设计了一个输入系统,里面由一个函数NewGetChar()把NewGetChar作为一个钩子钩到GetChar上,那么以后应用程序调用函数GetChar实际调用的是NewGetChar在NewGetChar中,它实现调用原来的GetChar函数从缓冲区读到字符,然后把这些字符传递给输入系统,让输入系统处理,输入系统处理完后,把结果给NewGetChar,由它把结果返回给应用程序。需要注意的是NewGetChar和GetChar的参数和返回值应该一致。,5、键盘HO
16、OK原理图,6、Windows下的HOOK,HHOOK SetWindowsHookEx(int idHook,HOOKPROC lpfn,HINSTANCE hMod,DWORD dwThreadId);其中,idHook指定钩子的类型,常用的有WH_MOUSE、WH_KEYBOARD、WH_GETMESSAGE等,键盘操作应该设定为WH_KEYBOARDlpfn标识钩子函数的入口地址,当钩子钩到任何消息后便调用这个函数,即当不管系统的哪个窗口有键盘输入马上会引起lpfn指向的函数的动作;hMod 是钩子函数所在模块的句柄,我们可以很简单的设定其为本应用程序的实例句柄dwThreadId是钩
17、子相关函数的ID用以指定想让钩子去钩哪个线程,为0时则拦截整个系统的消息。,内容,键盘 汉字键盘输入原理键盘汉字输入的总体流程 输入码对照表的设计,1、总体流程图,2、工作流程,用户在键盘上输入汉字的输入码;键盘控制器在检测到按键后,根据按键的位置产生它们的扫描码,然后存入键盘内的缓冲区中,并触发一个键盘的硬件中断;键盘中断处理程序从键盘内的缓冲区中取出扫描码;键盘中断处理程序把扫描码转换为ASCII码,和扫描码一起存储在内存的键盘缓冲区中;应用程序调用取字符模块取字符,实际调用的是汉字输入处理模块,汉字输入处理模块从内存的键盘缓冲区取得扫描码和ASCII码。在西文系统中,应用程序可以直接通过
18、取字符模块从键盘缓冲区获得西文字符(),从而结束输入过程;,2、工作流程(续),汉字输入处理模块判断读到的字符,是输入系统需要处理的吗?是则把输入码传送给代码转换模块;不是则直接返回给应用程序()(如F1、Insert等按键,输入系统不需要处理),结束;代码转换模块根据输入码查输入码对照表;代码转换模块从输入码对照表获得对应的汉字机内码;代码转换模块把汉字机内码交汉字处理模块;汉字处理模块通过用户干预后,把汉字机内码交应用程序,结束。,内容,键盘 汉字键盘输入原理键盘汉字输入的总体流程 输入码对照表的设计,1、输入码对照表,输入码对照表是汉字键盘输入中的一个重要数据结构,是汉字输入码到机内码转
19、换的核心,它反映了汉字输入码和机内码之间的映射关系。一般来说,系统有一种输入法,就需要为它配备一张对照表,但内码输入法是一个特例,它可以根据输入码计算出机内码,所以不需要对照表。对照表是以文件的形式存储在计算机中的,一般一张对照表就是一个文件,当然也有是由一系列的文件组成的。对照表一般有两种类型:字对照表和词对照表。在字对照表中,表示的是一个一个汉字和输入码的映射关系,而词对照表则表示词(组)和输入码的映射关系。,2、输入码对照表结构的分类,定长结构变长结构计算结构索引结构 其它,4、定长结构,定长结构的每个表项的长度固定。每个表项一般由有两个域组成:一个域存放汉字或词(组)的机内码,另一个表
20、项存放此汉字或词(组)的输入码。每个域的长度是固定的。如一个表项固定长度为6个字节,其中输入码占4个字节,汉字占2个字节。由于一个汉字的机内码一般由2个字节构成,所以字对照表可以采用定长结构。词对照表一般不会采用这种结构,是因为词组长度不一,容易造成存储空间的浪费。,4、定长结构(续)结构,4、定长结构(续),检索方法扫描法二分法假设需要检索的输入码为S,对照表的表项数为N,分别用ICi,HZi表示第i表项的输入码和汉字。,4、定长结构(续),扫描法:首先,为了方便检索,需要把对照表按照输入码的大小从小到大排序。扫描法是指每次查找都从头开始,一直找到和S相同的输入码项i;然后继续往后查找,找到
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉字输入技术 汉字输入 技术 PPT 课件
链接地址:https://www.31ppt.com/p-5541310.html