欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第5章5.1 文本与文本处理ppt课件.ppt

    • 资源ID:1428608       资源大小:1.97MB        全文页数:63页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第5章5.1 文本与文本处理ppt课件.ppt

    第5章 数字媒体及应用,5.1 文本与文本处理 5.2 图像与图形及应用5.3 数字声音及应用5.4 数字视频及应用,5.1 文本与文本处理,5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索,文字处理是计算机应用的基础,计算机应用使用计算机进行信息处理,其中,文字信息的处理是各种计算机应用的基础,传统的文字处理过程,计算机文字处理过程,文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:,5.1.1. 文本的输入,文本的输入,文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。文字输入方法概述 人工输入。方法:键盘输入、手写笔联机识别输入、语音识别输入;特点:速度慢、成本高,不适合需处理大批量文字的应用。 文字自动识别输入。将纸介质上的文本通过识别技术自动转换为文字的编码。方法:印刷体文字识别输入,手写体文字脱机识别输入;特点:速度快,效率高,有误差。,汉字的键盘输入,汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入的汉字字数多),汉字键盘输入方法的比较,文字符号输入计算机的方法,键盘输入,(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等(3)字形编码,如五笔字形和表形码等, (4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法,文字符号输入计算机的方法,优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低,文字符号输入计算机的方法,优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高,文字符号输入计算机的方法,识别率已达到98%功能:简、繁体字混合识别中文、西文混合识别文字、表格混合识别智能校对功能,文字符号输入计算机的方法,技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!,5.1.2 文本的表示与字符的编码,文本表示,文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。,字符、字符集及其码表,文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符都使用二进位(code) 表示,称为该字符的编码不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表,西文字符的编码ASCII码,西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII 字符存在问题:7位代码空间太小(解决方案:8位的扩充ASCII码)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码,标准ASCII字符集及其码表,汉字如何编码?,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素汉字的特点数量大;多个国家和地区使用;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?汉字在字符集中的排序方式确定使用的代码结构和代码空间,常用的汉字编码字符集,国家标准GB2312汉字扩充规范 GBK国家标准GB18030台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”)日本工业标准汉字字符集JIS X 0208-90韩国国家标准汉字字符集KSC 5601-87,GB2312汉字编码字符集,1980年颁布信息交换用汉字编码字符集基本集GB2312-1980GB2312字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,GB2312汉字的编码,每一个GB2312汉字使用16位(2个字节)表示每个字节的最高位均为“1”在16位代码空间中的码位分布:,GB2312汉字编码的不足之处,GB2312-80汉字字数太少,无法满足一些特殊应用的需要:人名、地名;古籍整理、古典文献研究。没有繁体字(1990年制定了繁体字的编码标准GB12345-90信息交换用汉字编码字符集第一辅助集)编码效率不高: (6763+682)/65536与ASCII码不兼容,区位码、国标码、机内码,几种汉字编码的对比,例: IE浏览网页时文字编码的选择,5.1.3 文本的文件类型,根据用途分为:简单文本、丰富格式文本和超文本三类。,简单文本(纯文本 ),没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息 举例:,简单文本(纯文本 ),简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,不能插入图片、表格等,不能建立超链接。Windows附件中的“记事本”所创建的文件就是简单文本文件。,丰富格式文本,本书由南京大学出版社(Publishing House of Nanjing University)出版,有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中,使用HTML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内容,丰富格式文本,文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。例如,RTF文件、DOC文件、PDF文件、HTML文件。RTF格式文件:RTF是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种中间格式标记语言,可用Windows写字板程序创建。 DOC文件:WORD文档。PDF格式文件:PDF格式文件将文字、宇型、格式、颜色、图形、图像、超文本链接、声音和视频等信息都封装在一个文件中。HTML文件:HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部(Head)、主体(Body)两大部分。,超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频,超文本,超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格式文本。阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。超文本文件特点有:各信息块按照其内容的关系互相连接,这些文本块可以是不同的文本,也可以是同一文本中的若干不同的组成部分。每个文本块都有一些指向其他文本块或从其他文本块指向该文本块的指针(超级链接),这些指针从文本块内部的某个位置指向另外一个文本块的起始位置,用于实现文本阅读时的快速跳转。,小结:文本的分类,5.1.4 文本的编辑处理与检索,复习:使用Word的操作流程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图表,进行增、删、改操作,保证文本的正确性,满足清晰、美观、便于使用等要求,文本编辑的主要内容,对字、词、句、段落进行添加、删除、修改等操作。 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等。段落的处理:设置行距、段间距、段缩进、对称方式等。页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等。,使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护,什么是文本处理?,常用文本处理软件,面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。大多数情况下,电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌的文本编辑器功能比较简单,操作使用方便。 例如,微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。当然邮件所带的附件并不受此限制。在互联网上进行聊天所使用的文本处理软件更加简单。 面向办公的文本处理软件 该类软件要求文本制作要有高效率、高质量,软件面向非专业用户,易学好用,文本处理能力,既功能丰富,又操作简单。 例如,Word、WPS2000。,常用文本处理软件,面向出版的文本处理软件 该类软件的主要功能是将文字、图形和图像等合理地安排在页面内。 例如,方正集团公司的“飞腾”排版软件、美国Adobe公司的Page Maker和PDF Writer。 面向网络信息发布和电子出版的文本处理软件 例如,微软的FrontPage、Acrobat软件。,关于文本检索,将文本按一定的方式进行组织、储存、管理,并根据用户的要求查找到所需要的文本,称为“文本检索”文本检索系统的组成和工作流程:,对每一文本生成索引索引的结构为:索引标识+相应的地址索引标识可以是文本的标题(主题)、作者、分类、关键词等,给出查询要求,如标题是什么、作者是谁、属于哪一类、所包含的关键词等提问词可以使用“与”、“或”、“非”等逻辑运算进行组合,由检索软件将查询要求与索引数据进行匹配,找出与查询要求相关的文本的地址;,系统按地址从文本库中取出对应的一组文本,返回给用户,经过分析后,按照与查询要求的相关程度(从高到低排序)返回给用户,对文本检索系统的评价,效果精度:返回结果中相关的文本占返回总数的百分比召回率: 返回结果中相关的文本占全部相关文本的百分比效率: 检索速度其它: 易用性等,Web信息检索系统,也称为搜索引擎,例如Google、Yahoo、Alta Vista、Infoseek、新浪、天网、百度等。系统结构:,预先使用软件robot遍历Web,将Web上的信息下载到本地文档库,对文本内容进行自动分析并建立索引,用户提出检索请求时,搜索引擎通过检查索引找出匹配的文本(或URL地址)并返回给用户,Web信息检索系统,全文索引适用于检索难以查找的或主题比较模糊的信息;目录检索有助于逐步缩小主题或者查找某个主题常见的、质量较高的信息,5.1.5 文本的输出,文本的输出,目的:阅读、浏览或打印文本使用的软件:文本阅读器/文本浏览器嵌入在文本编辑(处理)软件中,如微软的Word,独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 文本输出的过程:对文本的格式描述进行解释生成文字和图表的映像(bitmap)传送到显示器或打印机输出,输出过程中字形的生成,过程:先根据字符的字体确定相应的字库(font),再按照该字符的代码从字库中取出该字符的形状描述信息然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换最后将变换得到的字形放置在页面的指定位置处2种不同的字库:,点阵描述,轮廓描述,近几年考试真题,1 (2008年单选)在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为( )。 A46H B66H C67H D78H【分析】 此题是考查学生对于ASCII编码表的掌握情况,由题目中所给的字母A的ASCII编码为41H这个已知条件,可以推导出a的ASCII编码为61H,再考虑ASCII编码表中字母的顺序是连续的,所以可以得出b的ASCII编码为62H,以此类推可得出f的ASCII编码为66H。正确答案:B。 2 (2007年单选)下列汉字编码标准中,不支持繁体汉字的是( )。 AGB231280 BGBK CBIG 5 DGBl8030【分析】 此题的重点在于考查学生对一些基本知识的记忆,作为不同的汉字编码标准,考生应该熟记每一种编码内的汉字和字符的数目,以及其中主要包括哪些字符(简体中文、繁体中文、日文、韩文等)。正确答案:A。,近几年考试真题,3(2006多选题)文本编辑的目的是使文本正确、清晰、美观,下列_操作属于文本处理而不属于文本编辑功能。 A添加页眉页脚 B统计文本字数 C文本压缩 D识别并提取文本中的关键字 【分析】文本处理操作内容有:设置页面、页眉、页脚和页码; 字数统计、字频统计; 关键字提取、文摘自动生成等。文本编辑功能有:页面布局处理(页数、芬兰、页眉、页脚) 正确答案:BCD,近几年考试真题,4(2006填空)在中文Windows环境下,西文使用标准ASCII码,汉字采用GB2312 编码,现有一段文本的内码为:AB F4 D1 E3 78 C2 B7 55, 则在这段文本中,含有的汉字和西文字符的个数分别是_。【分析】ASCII是字节数(2位),且它的最高位是0,而汉字是字数(2个字节),且它的最高位都是1。所以为: AB F4 D1 E3 78 C2 B7 55 汉字 汉字 西文字符 汉字 西文字符 正确答案:3个汉字和2个西文字符,近几年考试真题,5(2008单选)不同文本处理软件使用的格式控制和结构说明信息并不统一,不同的丰富格式文本互不兼容,因此一些公司联合提出了一种中间格式,称为 格式。 ADOC BPDF CHTML DRTF 【分析】RTF是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种中间格式标记语言,可用Windows写字板程序创建 。正确答案:D6汉字输入的编码方法有数字编码、字音编码、字形编码和形音编码等4种,在同一种汉字编码字符集中,使用不同的编码方法向计算机输入的同一个汉字,它们的内码是不同的。( ) 【分析】汉字的机内码是指在计算机中表示一个汉字的编码 。所以机内码是唯一的。正确答案:,近几年考试真题,7. (2009单选)根据ASCII码值的大小,下列表达式中,正确的是 。 A、”a”A”9” B、”A”a”9” C、”9”a”A” D、”9”A”a” 【分析】ASCII表中:数字大写字母小写字母,正确答案:D8. (2009单选)已知“江苏”两字的区位码是“2913”和“4353”,则其机内码是 。 A、3D2D和4B55 B、4535和535D C、6145和7585 D、BDAD和CBD5 【分析】化为两个字节存储的十六进制: 2913D=1D0DH; 4353D=2B35H。 机内码为:江:01DDH+A0A0H=BDADH 苏:2B35H+A0A0H=CBD5H 正确答案:D,近几年考试真题,9、(2010单选)若内存中相邻2个字节的内容为十六进制74 51,则它们不可能的是 。 A、1条指令的组成部分 B、1个汉字的机内码 C、1个16位整数 D、2个英文字母的ASCII码 【分析】国标码和ASCII码都一样只使用每个字节的7位,最高位都是0。汉字机内码为了跟ASCII码区别,所以每个字节的最高位均为1。正确答案:B,近几年考试真题,10、(2010单选)超文本(超媒体)由许多节点和超链组成。下列关于节点和超链的叙述,错误的是 。 A、把节点互相联系起来的是超链 B、超链的目的地可以是一段声音或视频 C、节点可以是文字也可以是图片 D、超链的起点只能是节点中某个句子 【分析】超链接的链源可以是节点中的一个标题、句子、关键词、字、一幅图像、一个图标等。链宿可以是节点,也可以是系统中的一个文件(包括文件的标签)或者程序。 正确答案: D11、(2010判断)在ASC码表中,数字和英文字母按照ASC码值从小到大排列的顺序为:数字、大写字母、小写字母。 () 正确答案:,近几年考试真题,(2013判断)同一英文字母的大小写字符的ASCII码值相差32H。()(2015判断)UCSUnicode编码是我国制定的汉字编码标准。 【分析】Unicode是一种字符编码方法,它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是“Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是“Unicode Character Set”的缩写。,近几年考试真题,(2015多选)下列属于汉字输入编码的有(ACD) A电报码 B国标码 C五笔字型 D智能ABC (2012单选)下列关于超文本的叙述,错误的是(B)。 A.超文本是一项信息管理技术,也是一种电子文献形式 B.超文本采用线性结构组织信息 C.超媒体也可认为是一种超文本 D.超文本属于丰富格式文体,近几年考试真题,12.(2011多选题)下列文件类型中,属于丰富格式文本的文件类型有_。 A.DOC文件 B.HTM文件 C.PDF文件 D.TXT文件 【分析】RTF文件、DOC文件、PDF文件、HTML文件都属于丰富格式文本的文件类型。正确答案:A、B、C。13.(2014判断) 已知“H”的 ASCII 码值为 48H,则可推断出“J”的 ASCII 码值为 50H。() 14.(2014单选)既与我国早期汉字编码标准保持向下兼容,又与国际标准UCS/Unicode接轨的汉字编码标准是(B)。 A. Big5 BGB2312 CGB18030 DGBK 【分析】ANSI和Unicode/UCS2等编码标准都兼容GB2312,共收录汉字21003个。,近几年考试真题,(2013多选)下列关于超文本中文本块的叙述,正确的有(CD)。 A.文本块不能分布在不同的Web服务器中 B.文本块之间的关系是线性的 C.文本块之间由指针进行链接 D.文本块中的数据可以是文字、图形、图像、声音和视频(2013填空)文本输入的方法有人工输入和(自动识别)输入两类。,近几年考试真题,(2014单选)超文本采用网状结构组织信息,其核心是(A)。 A. 链接 B网络 C图像 D声音(2014单选)一幅分辨率为240320的24位真彩色图像,所占用的存储空间为(A) A225KB B225MB C1800KB D1800MB 【分析】数据量是320*240*3=230400Byte(2015单选) UCS/Unicode编码是我国制定的汉字编码标准。 【分析】UCS国际化组织制定的ISO/IEC10646标准, Unicode 统一码或联合码,微软、IBM联合制定()。,近几年考试真题,(2015单选)下列关于丰富格式文本的叙述,错误的是( B )。 A.Word、WPS文档都是丰富格式文本 B.HTML、PDF文档采用统一的格式控制符 C.丰富格式文本通常可以插入图片、表格和超链接 D.丰富格式文本可以进行排版并保留排版信息 【分析】 可以用软件将HTML转化为PDF格式。(2015单选)在Windows环境下,西文采用标准ASCII码,汉字采用GBK编码,若有一段文本的内码为“5A 47 C2 FD 6D B3 C7 63 D6 D0”,则表示该段文本中含有(B)。 A.2个西文字符4个汉字 B. 4个西文字符3个汉字 C. 6个西文字符2个汉字 D. 8个西文字符1个汉字,近几年考试真题,(2015多选)下列属于汉字输入编码的有(ACD)。 A电报码 B国标码 C五笔字型 D智能ABC 【分析】国标码:中文内码之一,此码代表中文简体字,为中国大陆广泛使用。(2015填空)传统的纸质文本采用线性结构来组织信息,称为线性文本。_超文本_采用网状结构来组织信息,文本中的各个部分按照其内容的关系互相链接。(2016判断)标准的ASCII码采用7位二进制编码,存储8个ASCII字符只需要7个字节。(),近几年考试真题,(2016单选)下列汉字编码标准中。字符集包含字符数最多的是 ( C )。 A. BIG5 B. GBK C. GB18030 D. GB2312 (2016单选)下列不能处理丰富格式文本的软件是( B )。 A. Adobe Acrobat B. Notepad C. Word D. WPS 【分析】 Adobe Acrobat简单来说就是一种阅读“pdf电子书格式”的阅读器,只能打开后缀名为pdf的文档。Notepad是一个文本编辑器,可以作为笔记簿来用。,

    注意事项

    本文(第5章5.1 文本与文本处理ppt课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开