《数字媒体及应用》PPT课件.ppt
《《数字媒体及应用》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数字媒体及应用》PPT课件.ppt(41页珍藏版)》请在三一办公上搜索。
1、第五章 数字媒体及应用,学习目标和要求 掌握ASCII字符的编码的规则和特点 掌握中文信息存储的特点,GB2312国标字符集的构成、区位码、机内码和国标码及其关系了解BIG5、GBK、GB18030、Unicode等编码了解文本在计算机中的处理过程及相关原理,了解图像(image)、图形(graphics)的概念和特点,熟悉图像信息在计算机内的表示和处理了解声音、视频信息的表示和应用,一、字符编码,1、西文字符的编码 西文信息是由字母、数字、标点符号及一些特殊符号组成的,它们的集合统称为西文字符集。,ASCII字符集和ASCII码,标准ASCII(ISO0646):7位编码,从0000000到
2、1111111,共128种编码,可用来表示128个不同的字符。95个可打印字符(常用字母、数字、标点符号等)33个控制字符,用一个字节存放一个字符的ASCII码,高位为0。,5.1 文本与文本处理,ASCII码的排放顺序:,1.数字、字母均按自然顺序排列。2.大小写字母的比较,小写字母大于大写字母。(A+32=a 65+32=97)3.字母与数字比较,数字(0-9)的代码均小于字母(A-Z)的代码4.空格比数字,标点,字母等常见符号都小。,扩展ASCII码(ISO2022),八位二进制表示一个字符,共有256个字符,前128个等同于标准ASCII,后128个均为高位为1的编码形式。,2、汉字字
3、符的编码 GB2312汉字编码 GBK汉字内码扩展规范 GB18030编码 BIG5编码 UCS/Unicode编码,国家标准局 1981年信息交换用汉字编码字符集基本集,(1)GB2312汉字编码,6763个常用汉字和682个非汉字字符 7445 组成:第一部分:字母、数字和各种符号共682个(统称为GB2312图形符号)第二部分:一级常用汉字,共3755个,按汉语拼音排列 第三部分:二级常用字,共3008个,按偏旁部首排列,汉字区位码:汉字在代码表中的行号、列号,这是一个二维代码表,有94行、94列,汉字在代码表中的位置用它所处的行号、列号表示:,采用双字节编码。,例如:“大”字的区号20
4、,位号83,区位码是20 83 用2个字节表示为:00010100 01010011,国标码:问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。解决方案:为了避免冲突,每个汉字的区号和位号必须分别加上32得到的代码称为汉字的“国标交换码”,用于汉字的传输和交换。,例如:“大”字的区号20,位号83区位码 20 83 二进制表示为:00010100 01010011国标交换码52 115 二进制表示为 00110100 01110011,机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方
5、法:使表示GB2312汉字国标码的两个字节最高位都置为“1”。这种汉字编码,称为GB2312汉字的“机内码”,存储在计算机中。,例如:“大”字 区位码 20 83 国标交换码52 115 二进制表示为 00110100 01110011 机内码 180 243 二进制表示为 10110100 11110011(B4F3H),(1)Q132G1 Q232G2(区位码 国标码),总结:区位码,国标码,机内码之间的转换,假设某个汉字国标码G1 G2(G1 表示第一个字节,G2表示第二个字节),区位码 Q1 Q2,机内码 J1 J2,则:,(2)G1128J1 G2128J2(国标码 机内码),199
6、5年颁布,全称汉字内码扩展规范 总计23940个码位,共收入21003个汉字和883图形符号 特点:双字节编码 简体和繁体汉字在同一个字符集中 Windows中文版操作系统、Office简体中文版都提供GBK汉字的支持。,(2)GBK汉字内码扩充规范(GBK-95),目的:建立统一的多文本处理环境,实现所有字符在同一字符集中统一编码 优点:编码空间极大,能容纳足够多的各种字符集(13亿字符)缺点:4字节的字符编码使存储空间浪费严重 实际做法:UCS-2为其子集,采用双字节编码,共有字符49194个,(3)UCS/Unicode(通用多8位编码字符集)编码,使用范围:通行于台湾、香港地区的一个繁
7、体字编码 方案,俗称“大五码”。收录内容:13461个汉字和符号符号408个常用汉字5401个次常用汉字7652个,(4)BIG5编码,目的:与GB2312和GBK兼容,向UCS/Unicode过渡。内容:规定了信息交换用的基本图形、字符及其二进制编码的十六进制表示,同时收录了主要的少数民族文字。编码方式:在GB2312和GBK的基础上进行了扩充,采用单字节/双字节/四字节三种方式编码,码位数160多万。,(5)GB18030汉字编码标准,二、文本处理,1、文本:文本是基于特定字符集的、具有上下文相关性的一个字符流,每个字符都使用二进制编码表示。2、文本在计算机中的处理过程,文本准备,输入码:
8、中文输入法输入的汉字编码。数字编码、字音编码、字形编码、形音编码,定义:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息,称为纯文本。后缀名.txt 特性:文件体积小,几乎所有的文字处理软件都能识别和处理;不能插入图片、表格、超链接等.,简单文本(纯文本),3、文本的分类,按是否具有编辑排版格式分:,丰富格式文本 有格式控制和结构说明信息的文本,如设定字型、字号、颜色等。如:Word的doc格式、Adobe Acrobat 的pdf格式等都是丰富格式文本。RTF格式:一些公司联合提出的一种中间格式。为了便于不同的丰富格式文本能在不同的软件和系统中交换使用,按文本内容的组织方式分:线
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字媒体及应用 数字 媒体 应用 PPT 课件
链接地址:https://www.31ppt.com/p-5519072.html