现代汉字的信息处理了解汉字信息处.ppt
,第七节 现代汉字的信息处理 学习要点 1.了解汉字信息处理的输入方式、汉字键盘输入的方法、几类汉字编码的优缺点。2.熟悉汉字处理对汉字规范化的要求。,一、信息处理 语言信息处理:用计算机对自然语言的音形义等信息进行处理。汉字信息处理:利用计算机对汉字符号系统进行处理的一项科学技术。是中文信息处理的关键和基础部分。汉字信息处理的过程:汉字的信息输入、汉字的信息处理、汉字信息的输出。,二、汉字的信息输入三种方式:键盘输入、字形识别输入、语音识别输入。(一)汉字的键盘输入1.整字输入(一字一键)2.编码输入(一字一码)编码方案逾500种,实现的近百种,推入市场的有几十种,较成功的有十几种。编码方法:音码、形码、音形码结合。,二、汉字的信息输入(1)音码 全拼法:每个字母都要击键。双拼法:声母、韵母分配给每个键。一般一个汉字击键2次,最多4次。例如:双(shuangud)拼(pinpn)法(fafa),智能拼音法,(2)形码将汉字形体分解为若干字元(笔画、部件、偏旁、部首),进行编码。笔形编码:李金铠八笔编码。部件编码:王永明五笔字型码。,部首编码:王安的三角编码。四角编码:王云五的四角编码。,(3)音形结合码字形为主字音为辅字音为主字形为辅,(4)汉字编码的标准化 GB码:是国标编码。就是中华人民共和国信息交换汉字编码标准(GB231280),在此标准中制定了每一个汉字及非汉字符号的编码。B1G5码:大5码:繁体字符编码。,3.汉语拼音输入法的优越性(1)不需要编码规则。(2)体现以词为单位的特点(3)输入与思维同步进行(4)有利于学习普通话和汉语拼音(5)有利于国际间的交流,4.汉字编码字符集(1)根据汉字位置编制地址码,方便信息处理。两个字节:区+位如GB码规定将汉字字符分为87个区,每个区有94个汉字(94位),因此共制定了87x948178个汉字、字符。如中国的“中”字位于54区48位。(2)国家标准字符集国际码大五码强制性国际标准国际标准字符集,(二)汉字的字型识别输入图形匹配法结构分析法输入:印刷体 手写体(三)汉字的语音识别输入语音传输、语音分析(语音规则、语义规则、语法规则)转换为汉字,二、汉字信息的处理拼音文字 输入码输出码 不用交换汉字输入 输入码输出码 需要交换国家标准:1981年国家标准局公布的信息交换用汉字编码字符集基本集(GB2312-80)通用汉字6763个,字符682,三、汉字信息的输出汉字信息输入:将汉字的外部编码转换成可供计算机处理系统识别的内部编码。汉字信息输出:将汉字的内部编码还原为外部字形、字音。信息处理的基础:点阵字库,四、汉字信息处理与汉字研究(一)汉字属性研究(二)汉字规范化、标准化研究,