字符编码(略看)ppt课件.ppt
《字符编码(略看)ppt课件.ppt》由会员分享,可在线阅读,更多相关《字符编码(略看)ppt课件.ppt(52页珍藏版)》请在三一办公上搜索。
1、1(52),3.5 文字的表示及处理,主要内容: 西文字符编码 汉字编码 汉字的输入和输出 文本处理,文字的表示及处理,2(52),1. ASCII码 ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange),使用7个二进位对字符进行编码。,一、西文字符编码,文字的表示及处理,3(52),基本的ASCII字符集共有128个字符 95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印) 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48) 下面为ASCII代码表:,文字
2、的表示及处理,4(52),标准ASCII字符集及其码表,控制字符,文字的表示及处理,5(52),0123456789ABCDEF,控制字符,01234567,b3b2b1b0 b6b5b4,文字的表示及处理,6(52),每个字符用标准规定的7位二进制数表示,在机内占一个字节(最高位为0)。 如: 字符“A”的ASCII码为: 字符“0”的ASCII码为:,(00110000)2 或(48)10、(60)8、(30)16,(01000001)2 或(65)10、(101)8、(41)16,文字的表示及处理,7(52),要求: 1.会比较ASCII字符的大小(按其ASCII码值) 空格09A Z
3、az 2.会推算同组字符ASCII码值 如A的ASCII值(十进制)为65,则B、C 的ASCII值分别为66、67,文字的表示及处理,8(52),定义方式: 用8位二进制数位表示一个字符的扩充 二-十进制 交换码.特点: 每个字符对应一个字节,共256种说明: 有很多编码没有使用,保留做为扩充,2.EBCDIC码,文字的表示及处理,9,二、汉字编码,1981年,国家标准局颁布了信息交换用汉字编码字符集-基本集(GB2312-80) (国标码)。 组成: (1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号),
4、1.GB2312-80汉字编码,文字的表示及处理,10(52),(2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列(3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个,文字的表示及处理,11(52),(按汉语拼音排列),(按偏旁部首排列),拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,1.GB2312-80汉字编码,GB2312-80字符集,文字的表示及处理,12(52),区位码: GB2312-80是一个二维代码表,有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。,1.GB2312-80汉字编码,文
5、字的表示及处理,13(52),例如: “大”字的区号20,位号83, 区位码是20 83 用2个字节表示为: 00010100 01010011,文字的表示及处理,14(52),国标交换码 (国标码):问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”,1.GB2312-80汉字编码,文字的表示及处理,15(52),例如: “大”字的区号20,位号83 区位码:20 83 国标交换码:52 115 (+32),二进制表示为:00010100 01010
6、011,二进制表示为:00110100 01110011,文字的表示及处理,16(52),机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码” 。,1.GB2312-80汉字编码,文字的表示及处理,17(52),例如:“大”字 区位码:20 83 二进制表示为:00010100 01010011 国标交换码:52 115 (+32) 二进制表示为:00110100 01110011 机内码:180 2
7、43(+128) 二进制表示为:10110100 11110011(B4F3),区位码 + 32 = 国标码国标码+128 = 机内码,文字的表示及处理,18(52),问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号),2.GBK汉字内码扩展规范,文字的表示及处理,19(52),GBK编码区分三个部分:汉字区(21003个汉字)、图形符号区、用户自定义区
8、 GBK每一个字符都采用双字节表示总体编码范围为:8140HFEFEH,共23940个码位; 首字节范围:81HFEH(二进制最高位为1); 尾字节范围:40HFEH(二进制最高位可以为0或1);,GBK汉字内码扩充规范,文字的表示及处理,20(52),目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC 10646 (通用多8位编码字符集)Unicode:统一码或联合码,与UCS完全等同的工业标准 优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符),3.UCS/Unicode汉字编码,文字的表示及处理,21(52),缺点:4字节的字符
9、编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字,文字的表示及处理,22(52),GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。,4.GB18030-2000编码,文字的表示及处理,23(52),BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 字符 编码 ppt 课件
链接地址:https://www.31ppt.com/p-1932190.html