汉字编码.ppt
《汉字编码.ppt》由会员分享,可在线阅读,更多相关《汉字编码.ppt(36页珍藏版)》请在三一办公上搜索。
1、汉字编码,1,汉字编码,汉字编码,2,汉字编码现状及其根源,多种编码方案共存,不利于交流和共享新旧标准同台使用,需相互转换统一标准正在形成中、日、韩、新等多国同时使用汉字简繁体汉字并存地区、国家间的文化、政治差异增加了汉字统一编码的难度,汉字编码,3,主要汉字(文字)编码标准与规范,ASCII(英文)GB2312GBKGB13000GB18030BIG5Shift_JISISO/IEC 10646Unicode,汉字编码,4,汉字的几种通行名称,Hanzi,Hantsu,汉字Ideographic character,表意字符,中文字符Kanji-日文中的叫法Hanja-朝鲜文中的叫法CJK-
2、中日韩通用字符集Unihan,汉字编码,5,ASCII码,美国信息交换标准编码(“美标”)用从0到127的128个数字来代表信息的规范编码包括33个控制码,一个空格码,和94个形象码形象码中包括了英文大小写字母,阿拉伯数字,标点符号等国际上大部分电脑的通用编码,汉字编码,6,文本文件与二进制文件,字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致文本文件(ASCII Text Files):美标形象码或空格码组成,通常可在不同电脑系统间直接交换二进制文件(Binary Files):含有控制码或非美标码的文件
3、,通常不能在不同电脑系统间直接交换,汉字编码,7,国标、区位、“准国标”、机内码,国标:中华人民共和国国家标准信息交换用汉字编码国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵每一横行叫一个“区”,每个区有九十四个“位”一个汉字在方阵中的坐标,称为该字的“区位码”例如“中”字在方阵中处于第区第位,它的区位码就是5448,汉字编码,8,区位码表,区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至
4、87区第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。,汉字编码,9,例,汉字编码,10,例,汉字编码,11,例,汉字编码,12,例,汉字编码,13,例,汉字编码,14,例,汉字编码,15,国标、区位、“准国标”、机内码,94:美标
5、中形象码的总数,33-126 汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符”如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码”机内码=(区位码)H+8080H+2020H,汉字编码,16,BIG5码,针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用,汉字编码,17,ISO/IEC 10646,一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 英文全称:Information technology-Universal Multiple-Octet Coded Character
6、 Set,简称UCS 中文全称:信息技术-通用多八位编码字符集,亦称大字符集宗旨:全球所有文种统一编码,汉字编码,18,Unicode,英文Universal Code的缩略语统一编码是对国际标准ISO/IEC 10646编码的一种称谓是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码就内容而言,Unicode和ISO/IEC 10646是一致的,并行的,汉字编码,19,CJK-中日韩统一汉字,把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称
7、UnihanCJKV或许更准确,V代表越南,汉字编码,20,ISO/IEC 10646 的体系结构,四维的编码空间总体上分为128个三维组(group),group的值范围是从00到7F 每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序)可编码空间为:128X256X256X256=32KX64K,汉字编码,21,ISO/IEC 10646体系结构图,汉字编码,22,基本多文
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉字编码
链接地址:https://www.31ppt.com/p-4520406.html