第5章5[1][1].1文本与文本处理.ppt

上传人：sccc

文档编号：5651108

上传时间：2023-08-06

格式：PPT

页数：67

大小：1.86MB

《第5章5[1][1].1文本与文本处理.ppt》由会员分享，可在线阅读，更多相关《第5章5[1][1].1文本与文本处理.ppt（67页珍藏版）》请在三一办公上搜索。

1、第5章数字媒体及应用,5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用5.4 数字视频及应用,本章考题题型分布,5.1 文本与文本处理,5.1.1 字符的编码5.1.2 文本准备5.1.3 文本的分类5.1.4 文本编辑、排版与处理5.1.5 文本的展现,文字处理是计算机应用的基础,计算机应用使用计算机进行信息处理,其中，文字信息处理是涉及面最广的一种计算机应用，几乎与任何领域任何人都有关。,传统的文字处理过程,计算机文字处理过程,文字信息在计算机中称为“文本”（text），文本是计算机中最常用的一种数字媒体文本由一系列“字符”（character）组成，每个字符均使用二进

2、制编码表示文本在计算机中的处理过程是：,5.1.1.字符在计算机中的表示,字符、字符集及其编码表,文字的基本元素是字母和符号，统称为“字符”(character)，它包括：字母、数字、标点、符号等字符集：一组特定字符的集合不同的字符集包含的字符数目与内容不同，如：中文字符集、西文字符集、日文字符集等字符的编码：字符集中每个字符的二进位表示，称为该字符的编码或代码(code)不同的字符其编码各不相同字符集中所有字符的编码的一览表，称为该字符集的码表,一、西文字符的编码ASCII码,西文是表音文字(拼音文字)，它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码)：A

3、SCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII 字符存在问题：字符集太小（只有128个字符）不同国家和地区使用不同的字符集及其编码，互不兼容东亚地区使用的大字符集无法编码,GB2312汉字编码字符集,1980年颁布信息交换用汉字编码字符集基本集（我国第一个国家标准）GB2312-1980GB2312字符集由三个部分构成：,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,共6763个汉字和682个符号，每个汉字和符号都有一个确定位置,区位码：GB2312国标字符集构成一个二维平面，它分成94行、94列，行号称为区

4、号，列号称为位号。问题：文本中的汉字与西文字符易与单字节的标准ASCII码混淆不清。例如：“大”字的区号20，位号83，区位码是20 83，用2个字节表示为：00010100 01010011（1453H）。解决方法：把一个汉字看作两个扩展ASCII码，即每个汉字的区号和位号必须分别加上32（即 0010 0000），且使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。,这种高位为 l 的双字节（16位）汉字编码就称为GB2312汉字的“机内码”，又称内码。例如：“大”字的内码是：10110100 11110011（B4F3）。,汉字的区位码、国标码、机内码的关系：国标码=区位码+

5、2020H 机内码=国标码+8080H 机内码=区位码+A0A0H汉字机内码双字节，最高位是1；西文字符机内码单字节，最高位是0。,GBK汉字内码扩充规范,GB2312的不足：汉字字数太少，缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要；与ASCII码不兼容GBK汉字内码扩充规范（1995）：在GB2312基础上，增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号，如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容，也使用双字节表示，第1字节最高位必须为“1”：,UCS/Unicode多文种大字符集,背景：为了实现全球数以千计的

6、不同语言文字的统一编码方案：ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x2161,114,112 个)，称为UCS/UnicodeUCS/Unicode的编码方案：先实现部分字符的编码（共107,361个字符）尽量与已有编码标准兼容其中包含有中、日、韩统一整理出来的近3万汉字（CJK汉字）允许有若干不同的编码方案,例如：,GB18030汉字编码标准,背景：无论是Unicode的UTF-8还是UTF-16，其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字，但它们的编码并不相同为了既能与UCS/Unicode编码标准接轨，又能保护我国

7、已有的大量汉字信息资源，我国在2000年和2005年两次发布GB18030汉字编码国家标准。GB18030实质上是UCS/Unicode字符集的另一种编码方案：单字节编码（128个）表示ASCII字符双字节编码（23940个）表示汉字，与GBK（以及GB2312）保持向下兼容，GBK不再使用四字节编码（约158万个）用于表示 UCS/Unicode中的其他字符GB18030目前已在我国信息处理产品中强制贯彻执行。,小结：几种汉字编码的对比,例:IE浏览网页时文字编码的选择,5.1.2.文本准备文稿如何输入计算机,文字符号输入计算机的方法,键盘输入,(1)数字编码,如电报码、区位码等,(2)字

8、音编码,如智能ABC等(3)字形编码，如五笔字形和表形码等,(4)形音编码发展趋势：基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法,文字符号输入计算机的方法,优点：自然，流畅小型化，适合移动计算不足：识别速度和正确性还需提高书写要求还要降低,文字符号输入计算机的方法,优点：自然，方便，适合移动计算不足：对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高,文字符号输入计算机的方法,识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能,文字符号输入计算机的方法,技术上非常困难，还无法实用目前准备先突破工整的楷书手写体的

9、识别!,汉字的键盘输入,汉字与键盘上的键无法一一对应，因此必须使用几个键来表示一个汉字，这就称为汉字的“键盘输入编码”优秀的汉字键盘输入编码应具有的特点：易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多),汉字键盘输入方法的比较,5.1.3 文本的分类,简单文本(纯文本),没有字体、字号的变化，不能插入图片、表格，也不能建立超链接，其文件后缀名是.txt 由一串用于表达正文内容的字符编码所组成，几乎不包含任何其他的格式信息和结构信息举例：,丰富格式文本,本书由南京大学出版社(Publishing House of Nanjing University)出版,有字体字号

10、等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本”丰富格式文本中，除了正文内容之外，还使用了许多“标记”来描述字符的属性和格式的设置。举例：下面标题的格式为：中文用黑体，西文用Arial Black体，居中,使用HTML语言描述为：,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记，如和等，用于说明排版的格式和文字属性，它们不属于正文内容,正文内容,超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来，从而形成“超文本”,“超链”实际上就是一个指针，用于指向其他文本块，也可以指向同一文本块中

11、的其他部分,超链是有向的，起点位置称为链源，它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页，一个文档，一段文字，也可以是一张图片，甚至一段声音或视频,小结：文本的分类,5.1.4 文本的编辑与排版,使用Word的操作流程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图表,进行增、删、改操作，保证文本的正确性,满足清晰、美观、便于使用等要求,目的：确保文本内容正确无误操作：对字、词、句和段落进行添加、删除、修改等操作MS Word的功能：在文本的任何位置都可以插入新的文字从文本的任何位置都可以删除不需要的文字

12、将一段文字从一处移动到另一处将一段文字从一处复制到另一处在文本中自动查找指定的词语用一个词语自动替换文本中指定的词语,文本编辑(text editing),目的：使文本清晰、美观、便于阅读操作内容：对文本中的字符、段落乃至整篇文章的格式进行设计和调整，分成3个层次：对字符格式进行设置对段落格式进行设置对文档页面进行格式设置,文本排版(格式化),设置字符的格式,字号(八号初号,5磅72磅以上)1磅相当于1/72英寸字体(宋体、楷体、黑体、仿宋、隶书)字符的修饰字符的形状(字形)：正常、加粗、倾斜、加粗倾斜字形的修饰：下划线、着重号、上下标、删除线字符的颜色字符的宽度字符的间距字符的效果字符的

13、排列方向,Demo1,什么是段落？用“回车”相互隔开的一组文字段落格式的设置：段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐)段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进)段间距和段内行距使用编号和项目符号段落添加边框和底纹首字下沉或悬挂段落与分页的关系,设置段落的格式,Demo2,控制段落的缩进,段落缩进是指段落中的文本到正文区左、右边界的距离，包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示,页面格式的设置：设置纸张大小和页边距设置每页的行、列数目设置分栏数目与格式设置页码设置页眉和页脚,设置页面的格式,设置页面的分栏,“所见即所得”

14、（操作效果屏幕立即可见，打印结果与屏幕所见完全相同）撤销(undo)和恢复(redo)操作格式刷多种视图(大纲视图与大纲编辑)自动更正、自动套用格式、自动编号、自动图文集自动保存功能和自动备份功能样式、模板和向导(wizard)功能宏操作（Macro）,提高Word操作效率的若干措施,文本处理初步,使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容：字数统计，词频统计，简/繁体相互转换，汉字/拼音相互转换词语排序，词语错误检测，文句语法检查自动分词，词性标注，词义辨识，大陆/台湾术语转换关键词提取，文摘自动生成，文本分类文本检索（

15、关键词检索、全文检索），文本过滤文语转换（语音合成），文种转换（机器翻译）篇章理解，自动问答，自动写作等文本压缩，文本加密，文本著作权保护,什么是文本处理?,例：Word 2003的文本处理功能,英文拼写检查和英语同义词检查字数统计自动编写摘要中文简繁体转换和术语转换中英词语翻译语法和格式检查语音识别（口授命令和听写）文档保护(防止打开或修改文档),5.1.5 文本的展现(输出),文本的展现(输出),目的：阅读、浏览或打印文本使用的软件：文本阅读器/文本浏览器嵌入在文本编辑(处理)软件中，如微软的Word，独立的软件：如Adobe公司的Acrobat Reader，微软公司的IE等文本展现的

16、过程：对文本的格式描述进行解释生成文字和图表的映像（bitmap）传送到显示器或打印机输出,附：输出过程中字形的生成,过程：先根据字符的字体确定相应的字库（font），再按照该字符的代码从字库中取出该字符的形状描述信息然后按形状描述信息生成字形，并按照字号大小及有关属性（粗体、斜体、下横线）将字形作必要的变换最后将变换得到的字形放置在页面的指定位置处2种不同的字库：,点阵描述,轮廓描述,真题讲解,一、选择题 1、在下列字符中，其ASCII码值最大的一个是。（2005年）A、X B、6 C、5 D、Y,答案：D,2、下列汉字编码标准中，不支持繁体汉字的是。（2007年）A.GB2312-80 B

17、.GBK C.BIG5 D.GB18030,答案：A,3、在ASCII编码中，字母A的ASCII编码为41H，那么字母f的ASCII编码为_。（2008年）A46H B66H C67H D78H,答案：B,4、不同的文本处理软件使用的格式控制和结构说明信息并不统一，不同的丰富格式文本互不兼容，因此一些公司联合提出了一种中间格式，称为_格式。、（2008年）ADOC BPDF CHTML DRTF,答案：D,5、根据ASCII码值的大小，下列表达式中，正确的是。（2009年）A.“a”“A”“9”B.“A”“a”“9”C.“9”“a”“A”D.“9”“A”“a”,答案：D,6、已知“江苏”两字的

18、区位码是“2913”和“4353”，则其机内码是。（2009年）A.3D2D和4B55 B.4535和535D C.6145和7585 D.BDAD和CBD5,答案：D,7、若内存中相邻2个字节的内容为十六进制74 51，则它们不可能是_。（2010年）A1条指令的组成部分 B1个汉字的机内码 C1个16位整数 D2个英文字母的ASCII码,答案：B,二、多选题 1、设某汉字的区位码(2710)D，则其。（2005年）A.机内码为(BBAA)H B.国标码为(3B2A)H C.国标码为(4730)H D.机内码为(9B8A)H,答案：AB,2、文本编辑的目的是使文本正确、清晰、美观，下列_操作

19、属于文本处理而不属于文本编辑功能。（2006年）A.添加页眉页脚 B.统计文本字数 C.文本压缩 D.识别并提取文本中的关键字,答案：ABD,三、填空题 1、1KB的内存空间能存储512个汉字内码，约存个2424点阵汉字的字形码。（2005年）2、在中文Windows环境下,西文使用标准ASCII码,汉字采用GB2312 编码,现有一段文本的内码为:AB F4 D1 E3 78 C2 B7 55,则在这段文本中,含有的汉字和西文字符的个数分别是_。（2006年）,答案：14,答案：3、2,四、判断题 1、每个汉字的机内码都用两个字节存储。（2005年）2、只要是在同一个字符集下，文本的输出所

20、使用的字库都是相同的。（2009年）,答案：T,答案：F,3、汉字输入的编码方法由数字编码、字音编码、字型编码和形音编码等4种，在同一种汉字编码字符集中，使用不同的编码方法向计算机输入的同一汉字，它们的内码是不同的。（2008年）,答案：F,4、在ASCII码表中，数字和英文字母按照ASCII码值从小到大排列的顺序为：数字、大写字母、小写字母。（）（2008年）,答案：T,例题讲解,一、选择题 1、下列有关我国汉字编码标准的叙述中，错误的是_。A.GB2312国标字符集所包含的汉字许多情况下已不够使用 B.GBK字符集包括的汉字比GB18030多 C.GB18030编码标准中所包含的汉字数目超

21、过2万个 D.我国台湾地区使用的汉字编码标准是Big5。,答案：B,2、使用计算机进行文本编辑与文本处理是常见的两种操作，下面属于文本处理操作的是_。A.设置页面版式 B.设置文章标题首行居中 C.设置文本字体格式 D.文语转换,答案：D,3、下列字符编码标准中，既包含了汉字字符的编码，也包含了如英语、希腊字母等其他语言文字编码的国际标准是_。A.GB18030 B.UCS/Unicode C.ASCII D.GBK,答案：A,4、汉字从键盘录入到存储，涉及汉字输入码和汉字_。A.DOC码 B.ASCII码 C.区位码 D.机内码,答案：D,5、在计算机中，西文字符最常用的编码是_。A.原码 B.反码 C.ASCII码 D.补码,答案：C,二、填空题 1、为了既能与国际标准UCS(Unicode)接轨，又能保护现有中文信息资源，我国政府发布了_汉字编码国家标准，它与以前的汉字编码标准保持向下兼容，并扩充了UCS/Unicode中的其他字符。,答案：GB18030,2、用计算机制作的数字文本若根据它们是否具有排版格式来分，可分为简单文本和丰富格式文本两大类。Windows附件中的记事本程序所编辑生成的.TXT文件属于_文件。,答案：简单文本,三、判断题 1、与文本编辑不同的是，文本处理是对文本中包含的文字信息的音、形、义等进行分析、加工和处理。,答案：T,