汉字信息处理与汉字输入法.ppt
1,目录:3.1计算机的数制与编码3.2文字信息的计算机处理过程3.3微机汉字输入法的使用,第3章 汉字信息处理与汉字输入法,2,重点:数制与数制间的转换ASCII码、国标码与机内码文字信息的输入、加工与输出汉字输入法的添加、安装与删除 汉字输入法的选择与切换输入法设置 难点:数制间的转换,3,3.1 计算机的数制与编码3.1.1 数制数制指的是表示数的方法和规则。进位记数制(简称进位制):按进位方式记数的数制。1进位记数制(1)十进位记数制 十进位记数制,简称十进制,用十个数码,即0、1、2、3、4、5、6、7、8、9表示数,低位向高位进位的规则是“逢十进一”,十进制的基数为10。一个十进制整数可以用一个多项式来展开。例如:563510261013100式中,102、101、100分别称为百位、十位、个位的“权值”。一般地,任何一个十进制整数都可表示为其各个数码与对应位权值的乘积之和。,4,(2)二进位记数制。二进位记数制,简称二进制,用两个数码,即0和1表示数,低位向高位进位的规则是“逢二进一”,二进制的基数为。类似于十进制整数,任何一个二进制整数都可表示为其各个数码与对应位权值的乘积之和。需注意的是,二进制整数各位的权值为2的方幂。【例3-1】(11010)2(124123022121020)10(26)10计算机内采用二进制表示数的两个主要原因:第一,物理上容易实现。计算机由电子元器件组合而成,元器件的两个相反物理状态(如电位的高低、开关的通断等)可用二进制中的数码0和1表示;第二,二进制的运算规则比其他数制简单,可使计算机的结构和运算简化。,5,(3)八进位记数制。八进位记数制,简称八进制,用8个数码,即0、1、2、3、4、5、6、7表示数,低位向高位进位的规则是“逢八进一”,八进制的基数为8。类似于十进制整数,任何一个八进制整数都可表示为其各个数码与对应位权值的乘积之和。注意的是,八进制整数各位的权值为8的方幂。【例3-2】(1502)8(183582081280)10(834)10(4)十六进位记数制。十六进位记数制,简称十六进制,用16个数码,即0、1、2、3、4、5、6、7、8、9、A、B、C、D、E、F表示数,低位向高位进位的规则是“逢十六进一”,十六进制的基数为16。,6,类似于十进制整数,任何一个十六进制整数都可表示为其各个数码与对应位权值的乘积之和。需注意的是,这里用A、B、C、D、E、F分别代表十进制的10、11、12、13、14、15,十六进制整数各位的权值为16的方幂。【例3-3】(1B4E)16(1163111624161 14160)10(6990)10 对于含有小数的数,小数部分的表示或展开方法与整数类似,只是各数码对应位的权值为基数的负方幂。【例3-4】(11010.01)2(124123022121 020021122)10(26.25)10 其中小数后第一位0、第二位1的权值依次为21、22。,7,几种常用进位制数值对照表,8,2.数制间的转换(1)二进制数和十进制数间的转换。二进制数转换成十进制数只要按前述方法将二进制数展开,计算各数码与相应权值的乘积并累加即可,如例【3-1】与例【3-4】。十进制数转换成二进制数 十进制整数转换为二进制整数可采用“2除取余法”,即将十进制整数逐次除以基数2取其余数,故此种方法称为“除基取余法”。,9,【例3-5】将(76)10转换成二进制数。计算步骤如下:余数(二进制数)2 76 2 38 0 二进制数最低位 2 19 0 2 9 1 2 4 1 2 2 0 2 1 0 0 1 二进制数最高位所以,(76)10(1001100)2。由上面计算过程可知,2除进行到商0余1为止,余数按逆序排列即为二进制数。,10,同样方法,十进制整数转换成八进制整数可采用“8除取余法”,十进制整数转换为十六进制整数可采用“16除取余法”。(2)二进制数和八进制数间的转换。二进制数转换成八进制数二进制数转换为八进制数,采用“三位一并法”,即以小数点为基点,向左右两个方向将每三位二进制数并为一组。如果整数部分最左边组不足三位在该组左边用0补齐,小数部分最右边组不足三位在该组右边用0补齐,这并不影响二进制数的值。然后将各组按如下表所示的对应关系转换为八进制数。用三位二进制数表示一位八进制数,11,【例3-6】将(1011010110.1101)2 转换成八进制数。步骤如下:001 011 010 110.110 100 1 3 2 6.6 4即(1011010110.1101)2(1326.64)8。八进制数转换成二进制数 八进制数转换成二进制数就是上述过程的逆过程,即采用“一分为三法”。【例3-7】将(3671.54)8转换为二进制数。步骤如下:3 6 7 1.5 4 011 110 111 001.101 100 即(3671.54)8()2()2。,12,(3)二进制数和十六进制数间的转换。二进制数转换成十六进制数二进制数转换成十六进制数,采用“四位一并法”,即以小数点为基点,向左右两个方向将每四位二进制数并为一组。如果整数部分最左边组不足四位在该组左边用0补齐,小数部分最右边组不足四位在该组右边用0补齐,这并不影响二进制数的值。然后将各组按如下表所示的对应关系转换为十六进制数。用四位二进制数表示一位十六进制数,13,【例3-8】将()2 转换为十六进制数。步骤如下:0011 0111 0110 1101 0110.1001 1010 0100 3 7 6 D 6.9 A 4即()2(376D6.9A4)16。十六进制数转换成二进制数十六进制数转换成二进数就是上述过程的逆过程,即采用“一分为四法”。【例3-9】将(3AB7.5D9)16转换为二进制数。步骤如下:3 A B 7.5 D 9 0011 1010 1011 0111.0101 1101 1001即(3AB7.5D9)16()2。,14,3.计算机的基本运算计算机的“计算”分为两类:数值计算和非数值计算。数值计算的基本运算是四则运算(加、减、乘、除);非数值计算的基本运算是基本逻辑运算(与、或、非)。(1)二进制的四则运算。二进制的数码只有0和1,在各种进位制中,其四则运算最简单。在计算机内部,二进制加法是基本运算。乘、除可以通过加、减和移位来实现,通过应用补码运算,减法也可转换成加法实现。,15,二进制的加法运算规则如下:000;101;011;1110(被加数和加数为1,结果本位为0,按逢二进一规则向高位进位1)。【例3-10】求二进制数(1101)2和(1011)2之和。运算过程如下:即(1101)2(1011)2(11000)2((13)10(11)10(24)10)。,16,二进制的减法运算规则如下:000;100;011(被减数为0,减数为1,结果本位为1;因为要向高位借位,本位被减数变为1011,所以01为1111);110。【例3-11】求二进制数(11101)2和(1011)2之差。运算过程如下:即(11101)2(1011)2(10010)2(29)10(11)10(18)10)。,17,二进制的乘法运算规则如下:000;100;010;111。【例3-12】求二进制数(1101)2和(1110)2之积。运算过程如下:即(1101)2(1110)2(10110110)2((13)10(14)10(182)10)。,18,二进制的除法运算规则如下:000;010(10无意义);111。【例3-13】求二进制数(1001110)2和(110)2之商。运算过程如下:即(1001110)2(110)2(1101)2(78)10(6)10(13)10)。,19,(2)基本逻辑运算 在形式逻辑中,任何复杂的逻辑运算都可以由三种基本逻辑运算来实现,即逻辑与(AND)、逻辑或(OR)、逻辑非(NOT),简称与、或、非。逻辑变量和运算结果只有“真(True)”、“假(False)”两个值,在计算机中可用“0”表示“假”,用“1”表示“真”。设有两个逻辑变量A和B,A、B的取值只能为0或1,逻辑运算规则如下:逻辑“与”运算规则“与”运算又称逻辑乘,通常用符号“AND”或“.”表示,如A AND B或A.B。逻辑“与”的运算规则为0 AND 0=0 0 AND 1=0 1 AND 0=0 1 AND 1=1或表示为0.0=0 0.1=0 1.0=0 1.1=1,20,逻辑“或”运算规则“或”运算又称逻辑加,通常用符号“OR”或“”表示,如A OR B或AB。逻辑“或”的运算规则为0 OR 00 0 OR 11 1 OR 01 1 OR 11或表示为0 00 0 11 1 01 1 11逻辑“或”形式上类似于二进制数的加法,但语义不同。上述规则表示,只有两个逻辑变量都为假时,结果才为假,否则结果为真。逻辑“非”运算规则“非”运算通常用符号“NOT”或“”表示。逻辑“非”是一元运算,即参与运算的数只有一个,对逻辑变量A,逻辑“非”运算可表示为NOT A或。逻辑“非”的运算规则为 NOT 01 NOT 10或表示为,21,上述规则表示,当逻辑变量为真时,结果为假;反之,结果为真。基本逻辑运算真值表,22,3.1.2 ASCII码文字、符号、语音、图形、逻辑数据等属于非数值型数据,对这些非数值型数据也要经过编码,计算机才能处理。非数值型数据中的英文字母、标点符号、特殊符号、作为符号使用的数字和控制符等,统称为“字符”。目前,这些字符国际上广泛采用“美国信息交换标准代码”(American Standard Code of Information Interchange),简称ASCII码,作为编码标准。这种编码方法用七位二进制码表示一个字符(见附录B),七位二进制码不够一个字节,为了计算机存储和处理方便,实际使用时每个字符在计算机中用一个字节表示,字节的最高位(左)位为0。这种在ASCII码最高位前添0形成的字节就是ASCII码的机内码。,23,ASCII码表中的字符排序是有规律的,如数码的ASCII码值小于大写英文字母的ASCII码值,大写英文字母的ASCII码值又小于小写的英文字母的ASCII码值,而数码或英文字母的ASCII码则按数字或字母顺序由小到大排序等。计算机对非数值数据进行排序时,是根据字符的ASCII码值比较其大小的。3.1.3 汉字编码ASCII码并不包括汉字的编码,为了使计算机能够处理汉字,就要解决汉字的编码问题。1.国标码1981年5月,国家标准总局颁布了信息交换用汉字编码字符集,即GB 231280汉字编码国家标准(见附录3)。该标准给出的汉字编码简称国标码。,24,国标码收进的字符共有7445个,包括非汉字字符和汉字字符,非汉字字符有标点符号、数学符号、序号、数字、英文大小写字母、俄文字母、希腊字母、罗马字母、日文片假名、汉语拼音符号和其他一些常用符号等;汉字字符中一级汉字3755个,二级汉字3008个,共计6763个。国标码采用双七位二进制码表示一个汉字。在GB 231280代码表中纵向分为94行,横向分为 94列,行和列分别用七位二进制码表示,其值都从0100001到1111110,第一个七位表示汉字所在的行,第二个七位表示汉字所在的列,如表下所示。GB 231280代码表(局部),25,由上表可知,汉字“阿”的国标码为“、汉字“宝”的国标码为“。由于二进制形式太长,国标码通常用十六进制表示,例如:2.区位码 在GB 231280代码表中,将94行和94列分别用二位十进制数编号,均从01到94,行编号称为区号,列编号称为位号,则有94个区和94个列。将每个汉字(或符号)的区号和位号连起来就组成这个汉字(或符号)的区位码。例如:汉 字 区号 位号 区位码 阿 16 02 1602 宝 17 06 1706,26,区位码与国标码有着简单的对应关系:将区位码的区号和位号分别转换为对应的十六进制数,再加上十六进制数2020H(H表示2020为十六进制数),就得到对应的国标码。例如,“阿”的区位码是1602,分别将区号和位号转换成对应的十六进制数得1002H,再加上2020H就得到“阿”的国标码为3022H。3.机内码国标码是双七位二进制码,不是字节的倍数,不便于计算机存储和处理,因此要将国标码转换成在计算机内部实际表示汉字的代码,即机内码。目前多数微机汉字系统的机内码都是以国标码的双七位二进制码为基础,在第一、二个七位二进制码最高位(左)前分别添加数码“1”,构成完整的双字节,即以两个字节表示一个汉字(或符号)。,27,汉字机内码与国标码有很简单的对应关系:将四位十六进制的国标码加上8080H,就得到对应的机内码。如“阿”字的国标码为3022H,加上8080H就得到其对应的机内码为B0A2H。8080H对应的二进制数是,将四位十六进制的国标码加上8080H,恰好等于在国标码的双七位二进制码的第一、二个七位二进制码最高位(左)前分别添加数码“1”,保证机内码的每个字节的首位均为1。将B0A2H转换为二进制数为,这就是计算机内实际使用的汉字“阿”的机内码的二进制形式。,28,3.2 文字信息的计算机处理过程计算机处理文字的过程包括信息输入、信息加工和信息输出。3.2.1 文字信息的输入1.键盘输入计算机的键盘原本是为英文输入设计的,一个键对应一个字符或标点符号。击键一次键盘的译码电路就产生该键代表的字符或标点符号的ASCII码,并输入到计算机的内存中。因为英文键盘按键的数目远远少于汉字的字符数,所以需要用若干个健的组合来表示一个汉字。这种键的组合称为“汉字输入编码”。,29,尽管汉字编码输入方案种类繁多,但是归纳起来可分为下面几类:(1)数码数码就是用数字对汉字进行的编码。这是没有重码的编码,如区位码,电报码等。(2)形码形码就是根据汉字字形、结构进行的编码。如五笔字型码、徐码、郑码、表形码等。(3)音码音码就是根据汉字的拼音进行的编码。如全拼、双拼、智能ABC、微软拼音等。(4)音形码音形码就是根据汉字的拼音、字形进行的综合编码。如自然码、认知码等。,30,2.其他输入设备除了常用键盘输入文字信息外,其他输入方法主要有语音输入和手写输入。语音输入通过发声来输入汉字,计算机需要配备声卡、麦克风和语音输入软件。但这种输入技术目前还不够成熟。手写输入通过在特制的手写设备(如手写板)上书写文字来输入汉字。这种输入技术已经成熟,相应的设备已商品化,比较适合不会键盘输入、输入字数不多、对速度要求不高的用户使用。3.2.2 文字信息的加工文字信息的加工指的是对输入文字进行编辑、排版。如增、删、改文本,设置文字的字体、字号,段落设置和版面布局设计等。所有这些工作必须使用专门的文字处理软件才能完成。,31,3.2.3 文字信息的输出所谓点阵就是一些相关点的集合,是把一个汉字看成一个二维图形,把笔画离散化,用有笔画的点和无笔画的点的组合来描述一个汉字。描述一个汉字的字形点阵信息的若干个二进制代码串就组成该汉字的“字模”,所有汉字和符号的“字模”就组成了汉字“字模库”,简称“字库”。汉字点阵类型和参数,32,点阵数越多,输出的汉字就越精美,但占用的字节数就越大。一般地,简易型的1616的点阵也可较好地显示一个汉字。若要以1616的点阵的字库存储包括一、二级汉字在内的近8000个常用汉字和符号,需要约240KB的存储空间,2424点阵的汉字库需要580KB,精密型点阵的字库,占用的存储空间就更大了。在计算机中安装字库有两种方法:即硬字库和软字库方法。1.文字的显示输出字符显示原理如下图所示:,33,2.文字的打印输出 汉字打印的工作过程如下图所示:3.3 微机汉字输入法的使用3.3.1 汉字输入法的添加、安装与删除1.语言栏启动计算机后,在任务栏的右端有一个包含输入法指示器的语言栏,如右图所示。,34,2.汉字输入法的添加添加操作系统自身提供的其他汉字输入法的步骤如下:右击语言栏,在弹出的快捷菜单中选择“设置”选项,或选择“我的电脑”“控制面板”“区域和语言选项”,在弹出的“区域和语言选项”对话框中选择“语言”选项卡,单击其中的“详细信息”按钮,均会弹出“文字服务和输入语言”对话框,如下图所示。,35,在该对话框中单击“添加”按钮,弹出“添加输入语言”对话框,如下图所示。在该对话框的“输入语言”下拉列表框中选择“中文(中国)”选项,在“键盘布局/输入法”下拉列表中选择要添加的中文输入法,如“中文(简体)-双拼”,单击“确定”按钮,则在“文字服务和输入语言”对话框的“已安装的服务”列表中添加了所选择的中文输入法。单击“文字服务和输入语言”对话框的“确定”按钮,此时用鼠标单击任务栏的输入法指示器,在弹出的菜单中可看到新添加的中文输入法。,36,3.汉字输入法的安装如果用户需要使用操作系统自身没有提供的汉字输入法,如“王码五笔型输入法86/98版”等,可购买或上网下载这些软件,在用户计算机上运行安装程序并按提示操作即可把它们安装进去。4.删除输入法删除操作系统自身提供的汉字输入法的方法如下:在“文字服务和输入语言”对话框的“已安装的服务”列表中选定要删除的输入法,单击“删除”按钮,则该输入法从“已安装的服务”列表中删除;再单击“确定”按钮,则该输入法从输入法指示器的菜单中删除。需注意的是,被“删除”的输入法并不从操作系统中删除,而是重新放回“添加输入语言”对话框的“键盘布局/输入法”下拉列表框中,需要时用户可用“汉字输入法的添加”方法重新添加使用。,37,删除操作系统自身没有提供的另行安装的汉字输入法的方法如下:除了可用上述的删除操作系统自身提供的汉字输入法的方法外,有的输入法软件还可通过任务栏的“开始”“所有程序”,在弹出的菜单中逐级找到该软件的卸载项或通过“控制面板”“添加或删除程序”彻底删除。3.3.2 汉字输入法的选择与切换1.输入法选择选择某一种汉字输入法,例如王码五笔型输入法86版,可单击语言栏上的输入法指示器,在弹出的输入法菜单中单击该输入法选项,该输入法选项前会出现对号“”并在任务栏左侧出现“五笔型”输入法状态栏,如下图所示,此时可以用该输入法输入汉字。,38,输入法菜单及输入法状态栏2.输入法切换 中英文切换按钮。单击“中英文切换”按钮,显示“A”时表示处于英文输入状态,显示图案时表示处于中文输入状态,两种输入状态可根据需要切换。输入法名称框。输入法名称框主要用来显示当前使用的汉字输入法名称,通过单击此框,有些输入法可以改变拼法,如智能ABC输入法等。,39,全角/半角切换按钮。单击“全角/半角切换”按钮,显示“全月”时为全角状态,无论汉字还是英文字符,一律用两字节表示;显示“半月”时为半角状态,汉字用两字节表示,英文字符用一字节表示,所以英文全角字符显示宽度比英文半角字符大一倍。中英文标点切换按钮。单击“中英文标点切换”按钮,显示中文句号(小圆圈)和空心逗号时表示处于中文标点符号状态,此时无论是在全角或半角状态下输入的标点符号均为中文标点符号,并且均占两个半角字符宽度;显示英文句号(小圆点)和实心逗号时表示处于英文标点符号状态,此时无论是在全角或半角状态下输入的标点符号均为英文标点符号,但全角状态下的英文标点符号用两字节表示,半角状态下的英文标点符号则用一字节表示,即前者的显示宽度为后者的两倍。,40,在中文标点符号状态下,键盘按键与中文标点符号的对应关系如下表所示。中文标点符号与按键的关系,41,软键盘按钮。单击“软键盘”按钮可打开软键盘,单击软键盘上的键可代替手指在实际键盘中的按键操作;可利用软键盘输入外文字母或特殊符号,方法是:右键单击软键盘按钮,弹出包含希腊字母、俄文字母、日文平假名和片假名、数学符号、单位符号和一些特殊符号等选项的菜单,单击所需的选项,打开相应的软键盘,单击软键盘中所需的字母或符号即可。使用快捷键切换输入法的方法如下:组合键“CtrlSpace(空格键)”:中英文输入状态之间切换。组合键“CtrlShift”:在各种输入法之间轮流切换。需注意的是,此操作在有的操作系统中默认设置为按组合键“AltShift”。,42,3.3.3 编码框与词语选择框当输入汉字的编码时该编码会显示在一长条形编码框中,如果输入有错可以按退格键删除或按Esc键取消输入的编码,等待重新输入。如果有重码,就出现词语选择框,供用户选择需要的单字或词组,如果所需单字或词组排列在第一位,可按空格键或数字键“1”输入该单字或词组,否则按对应的数字键输入。3.3.4 输入法设置利用中文Windows XP系统提供的“输入法设置”功能,用户可更加方便快捷输入汉字,右单击“输入法状态栏”中除“软键盘”以外的任何地方,在弹出的快捷菜单中选择“设置”选项,或在“文字服务和输入语言”对话框的“已安装的服务”列表中选择任一种汉字输入法后单击“属性”按钮,均会出现“输入法设置”对话框,如下图所示。,43,1.词语联想系统默认选中该项,即默认有词语联想功能,当输入单个汉字或词组时接着会把联想的词语继续显示在词语选择框中,供进一步选用,如果取消选中,则在输入单个汉字或词组时不会再出现词语选择框了。,44,2.词语输入系统默认选中该项,即默认有词语输入功能,此时可输入单字也可输入词组,如果取消选中,则只能输入单字不能输入词组,如不能直接输入“计算机”等各种词组。3.逐渐提示 系统默认选中该项,即默认有逐渐提示功能,此时每输入一个编码,就在词语选择框中显示与该编码有关的单字或词组,使用户不用输完所有编码,通过词语选择框就可选择所需的单字或词组,如果取消选中,则在输入编码时不会出现词语选择框,只出现编码框。,45,4.外码提示系统默认选中该项,即默认有外码提示功能,当输入编码时,在词语选择框中显示相关的单字或词组时,也显示输入这些单字或词组还需要继续输入的编码,如果取消选中,则当输入编码时在词语选择框中只显示相关的单字或词组,这些单字或词组后不显示需要继续输入的编码。5.光标跟随 系统默认选中该项,即默认有光标跟随功能,此设置下编码框或词语选择框的显示位置跟随光标移动,显示位置足够时总是出现在光标的右下方或右方,如果取消选中,则编码框和词语选择框总是出现在屏幕下方状态栏的固定位置上,不随光标移动。,