欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    字符编码(略看)ppt课件.ppt

    • 资源ID:1932190       资源大小:282KB        全文页数:52页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    字符编码(略看)ppt课件.ppt

    1(52),3.5 文字的表示及处理,主要内容: 西文字符编码 汉字编码 汉字的输入和输出 文本处理,文字的表示及处理,2(52),1. ASCII码 ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange),使用7个二进位对字符进行编码。,一、西文字符编码,文字的表示及处理,3(52),基本的ASCII字符集共有128个字符 95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印) 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48) 下面为ASCII代码表:,文字的表示及处理,4(52),标准ASCII字符集及其码表,控制字符,文字的表示及处理,5(52),0123456789ABCDEF,控制字符,01234567,b3b2b1b0 b6b5b4,文字的表示及处理,6(52),每个字符用标准规定的7位二进制数表示,在机内占一个字节(最高位为0)。 如: 字符“A”的ASCII码为: 字符“0”的ASCII码为:,(00110000)2 或(48)10、(60)8、(30)16,(01000001)2 或(65)10、(101)8、(41)16,文字的表示及处理,7(52),要求: 1.会比较ASCII字符的大小(按其ASCII码值) 空格09A Z az 2.会推算同组字符ASCII码值 如A的ASCII值(十进制)为65,则B、C 的ASCII值分别为66、67,文字的表示及处理,8(52),定义方式: 用8位二进制数位表示一个字符的扩充 二-十进制 交换码.特点: 每个字符对应一个字节,共256种说明: 有很多编码没有使用,保留做为扩充,2.EBCDIC码,文字的表示及处理,9,二、汉字编码,1981年,国家标准局颁布了信息交换用汉字编码字符集-基本集(GB2312-80) (国标码)。 组成: (1)第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号),1.GB2312-80汉字编码,文字的表示及处理,10(52),(2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列(3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个,文字的表示及处理,11(52),(按汉语拼音排列),(按偏旁部首排列),拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,1.GB2312-80汉字编码,GB2312-80字符集,文字的表示及处理,12(52),区位码: GB2312-80是一个二维代码表,有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。,1.GB2312-80汉字编码,文字的表示及处理,13(52),例如: “大”字的区号20,位号83, 区位码是20 83 用2个字节表示为: 00010100 01010011,文字的表示及处理,14(52),国标交换码 (国标码):问题:信息通信中,汉字的区位码与通信使用的控制码(00H1FH)发生冲突。解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码”,1.GB2312-80汉字编码,文字的表示及处理,15(52),例如: “大”字的区号20,位号83 区位码:20 83 国标交换码:52 115 (+32),二进制表示为:00010100 01010011,二进制表示为:00110100 01110011,文字的表示及处理,16(52),机内码:问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码” 。,1.GB2312-80汉字编码,文字的表示及处理,17(52),例如:“大”字 区位码:20 83 二进制表示为:00010100 01010011 国标交换码:52 115 (+32) 二进制表示为:00110100 01110011 机内码:180 243(+128) 二进制表示为:10110100 11110011(B4F3),区位码 + 32 = 国标码国标码+128 = 机内码,文字的表示及处理,18(52),问题:GB2312-80只有6763个汉字,使用时功能不够。解决方法:1995年发布GBK,全称为汉字内码扩展规范GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号),2.GBK汉字内码扩展规范,文字的表示及处理,19(52),GBK编码区分三个部分:汉字区(21003个汉字)、图形符号区、用户自定义区 GBK每一个字符都采用双字节表示总体编码范围为:8140HFEFEH,共23940个码位; 首字节范围:81HFEH(二进制最高位为1); 尾字节范围:40HFEH(二进制最高位可以为0或1);,GBK汉字内码扩充规范,文字的表示及处理,20(52),目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码途径:UCS:ISO/IEC 10646 (通用多8位编码字符集)Unicode:统一码或联合码,与UCS完全等同的工业标准 优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符),3.UCS/Unicode汉字编码,文字的表示及处理,21(52),缺点:4字节的字符编码使存储空间浪费严重克服:UCS-2是双字节编码,共有字符49194个,其中包括:欧洲及中东地区使用的拉丁字母、音节文字各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号中、日、韩(CJK)统一编码的汉字,文字的表示及处理,22(52),GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。,4.GB18030-2000编码,文字的表示及处理,23(52),BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行编码。BIG5收录了13461个汉字和符号。,5.BIG5编码,文字的表示及处理,24(52),几种汉字编码的对比,文字的表示及处理,25(52),人工输入:通过键盘、手写笔或语音输入方式输入字符 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码,三、汉字的输入输出,1.汉字输入,文字的表示及处理,26(52),文字的表示及处理,27(52),键盘输入编码 : 汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。,(1)键盘输入,文字的表示及处理,28(52),汉字输入编码的分类拼音编码:如:智能ABC, 紫光拼音 缺点:同音字引起的重码多,需增加选择操作字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快, 如:五笔字形法和表形码等 缺点: 编码规则不易掌握,文字的表示及处理,29(52),联机手写汉字识别系统构成 输入 、预处理、特征提取、分类、后处理、输出需求的配件: 专用的书写板和笔,(2)联机手写汉字识别(笔输入),文字的表示及处理,30(52),工作过程: 在书写板上书写,书写板将笔尖的运动按时间采样,发送到计算机中,由软件进行识别,然后用该汉字(或符号)对应的代码进行保存。例如: 汉王笔 正识率 95 90,速度 12字/秒,文字的表示及处理,31(52),目的:使计算机具有人的听觉,是模式识别的分支 语音识别的分类(按照不同的应用及要求):孤立词/连接词/连续语音识别小词汇量/中词汇/大词汇量语音识别特定人/限定人/非特定人语音识别 最高目标:非特定人大词汇量的连续语音识别技术,(3)汉字语音识别,文字的表示及处理,32(52),脱机文字识别:对已经印刷或写完的文字进行识别, 自动输入计算机并转换为数字文本形式的一种技术,也叫做汉字OCR(Optical Character Recognition)。 分类: 印刷体OCR 和手写体OCR,(4)脱机文字识别,文字的表示及处理,33(52),汉字键盘输入方法的比较,文字的表示及处理,34(52),汉字的输出过程:输出机器内部的汉字编码,需要根据汉字编码对应的汉字字型码进行解释,生成映像,最后再传送到显示器或打印机输出。 机内汉字编码字型码打印输出(显示器/打印机),2.汉字输出,文字的表示及处理,35(52),汉字字型码:用于汉字在显示器或者打印机上输出. 汉字字型码表示形式分类:点阵表示形式矢量表示形式,文字的表示及处理,36(52),汉字字型表示形式:汉字字型码用点阵表示 16*16(占32个字节)、 24*24、48*48等汉字矢量表示存储描述汉字轮廓特征的信息。如:Windows中TrueType技术即为该表示形式。,轮廓描述,点阵描述,文字的表示及处理,37(52),字型库:简称字库,同一种字体的所有字符(例如GB2312中的7000多字符)的形状描述信息的集合。不同的字体(如宋体、仿宋、楷体、黑体等)对应不同的字库。,文字的表示及处理,38(52),文本编辑的主要功能(了解)对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等,三、文本编辑,1.文本的编辑,文字的表示及处理,39(52),段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get, 简称WYSIWYG),文字的表示及处理,40(52),文本处理内容:字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换,2.文本的处理,文字的表示及处理,41(52),文本压缩,文本加密,文本著作权保护关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等,2.文本的处理,文字的表示及处理,42(52),(1)面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。典型软件: 微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。,3.常用文本处理软件,文字的表示及处理,43(52),(2)面向办公的文本处理软件功能要求: 文本制作的高效率、高质量;软件面向非专业用户,易学好用;文本处理能力,既功能丰富,又操作简单;排版功能。典型软件: MS-Office、WPS2000,文字的表示及处理,44(52),(3)面向出版的文本处理软件排版软件的主要功能: 将文字、图形和图像等合理地安排在页面内,使版面符合专业排版要求。典型排版软件:方正集团公司的“飞腾”排版软件美国Adobe公司的PageMaker和PDF Writer,文字的表示及处理,45(52),(4)面向网络信息发布和电子出版的文本处理软件 将文本制作成网页发布到internet或作为电子图书进行出版 典型处理软件面向网络信息发布的软件 MS Fontpage、Word 面向电子出版的软件 Adobe公司的Acrobat PDF格式文件,文字的表示及处理,46(52),根据制作文本的用途分为 纯文本 TXT 丰富格式文本 RTF 根据软件的使用不同 DOC、PDF、WPS 等,3.常见文本类型,文字的表示及处理,47(52),纯文本:是由一连串的字符组成的,几乎不包含任何其他格式信息和结构信息。 特性:呈现为一种线性结构,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,没有字体、字号的变化,不能插入图片、表格等,不能建立超链接。由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息,(1)纯文本.txt,文字的表示及处理,48(52),文字的表示及处理,49(52),文本的格式化(字型 字号 颜色 ) 丰富格式文本(rich text、fancy text、formatted text) RTF格式 (不同软件系统相互交互中间格式) 多媒体文档(Multimedia Document)插入图 表 公式 声音 视频 .,(2)丰富格式文本,文字的表示及处理,50(52),使用HTML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内容,文字的表示及处理,51(52),(3) 超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频,文字的表示及处理,52(52),小结:文本的分类,文字的表示及处理,

    注意事项

    本文(字符编码(略看)ppt课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开