第5章5.1 文本与文本处理ppt课件.ppt
《第5章5.1 文本与文本处理ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章5.1 文本与文本处理ppt课件.ppt(63页珍藏版)》请在三一办公上搜索。
1、第5章 数字媒体及应用,5.1 文本与文本处理 5.2 图像与图形及应用5.3 数字声音及应用5.4 数字视频及应用,5.1 文本与文本处理,5.1.1 文本的输入 5.1.2 文本的表示与字符的编码 5.1.3 文本文件的类型 5.1.4 文本的编辑处理与检索,文字处理是计算机应用的基础,计算机应用使用计算机进行信息处理,其中,文字信息的处理是各种计算机应用的基础,传统的文字处理过程,计算机文字处理过程,文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示文本在计算机中的处理过程是:,5.
2、1.1. 文本的输入,文本的输入,文本的输入 文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。文字输入方法概述 人工输入。方法:键盘输入、手写笔联机识别输入、语音识别输入;特点:速度慢、成本高,不适合需处理大批量文字的应用。 文字自动识别输入。将纸介质上的文本通过识别技术自动转换为文字的编码。方法:印刷体文字识别输入,手写体文字脱机识别输入;特点:速度快,效率高,有误差。,汉字的键盘输入,汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点:易学习、易记忆效率高(平均击键次数较少)重码少容量大(可输入
3、的汉字字数多),汉字键盘输入方法的比较,文字符号输入计算机的方法,键盘输入,(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等(3)字形编码,如五笔字形和表形码等, (4)形音编码发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法,文字符号输入计算机的方法,优点:自然,流畅小型化,适合移动计算不足:识别速度和正确性还需提高书写要求还要降低,文字符号输入计算机的方法,优点:自然,方便,适合移动计算不足:对说话人、说话方式、说话内容的适应能力要大大增强识别速度和正确性还需大大提高,文字符号输入计算机的方法,识别率已达到98%功能:简、繁体字混合识别中文、
4、西文混合识别文字、表格混合识别智能校对功能,文字符号输入计算机的方法,技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别!,5.1.2 文本的表示与字符的编码,文本表示,文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。,字符、字符集及其码表,文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符
5、集中每个字符都使用二进位(code) 表示,称为该字符的编码不同的字符其编码各不相同字符集中所有字符的编码的一览表,称为该字符集的码表,西文字符的编码ASCII码,西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII 字符存在问题:7位代码空间太小(解决方案:8位的扩充ASCII码)不同国家和地区使用不同的字符集及其
6、编码,互不兼容东亚地区使用的大字符集无法编码,标准ASCII字符集及其码表,汉字如何编码?,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素汉字的特点数量大;多个国家和地区使用;字形复杂,同音字多,异体字多如何编码?确定收入多少字、哪些字?汉字在字符集中的排序方式确定使用的代码结构和代码空间,常用的汉字编码字符集,国家标准GB2312汉字扩充规范 GBK国家标准GB18030台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”)日本工业标准汉字字符集JIS X 0208-90韩国国家标准汉字字符集KSC 5601-87,GB2312汉字编码字符集,
7、1980年颁布信息交换用汉字编码字符集基本集GB2312-1980GB2312字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个,GB2312汉字的编码,每一个GB2312汉字使用16位(2个字节)表示每个字节的最高位均为“1”在16位代码空间中的码位分布:,GB2312汉字编码的不足之处,GB2312-80汉字字数太少,无法满足一些特殊应用的需要:人名、地名;古籍整理、古典文献研究。没有繁体字(1990年制定了繁体字的编码标准GB12345-90信息交换用汉字编码字符集第一辅助集)编码效率不高: (6763+682)/65536与ASCII码不兼容,区
8、位码、国标码、机内码,几种汉字编码的对比,例: IE浏览网页时文字编码的选择,5.1.3 文本的文件类型,根据用途分为:简单文本、丰富格式文本和超文本三类。,简单文本(纯文本 ),没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息 举例:,简单文本(纯文本 ),简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀
9、名是TXT。简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理,不能插入图片、表格等,不能建立超链接。Windows附件中的“记事本”所创建的文件就是简单文本文件。,丰富格式文本,本书由南京大学出版社(Publishing House of Nanjing University)出版,有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用Aria
10、l Black体,居中,使用HTML语言描述为:,本书由南京大学出版社(Publishing House of Nanjing University)出版,用一对指出的是标记,如 和 等,用于说明排版的格式和文字属性,它们不属于正文内容,正文内容,丰富格式文本,文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。例如,RTF文件、DOC文件、PDF文件、HTML文件。RTF格式文件:RTF是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种中间格式标记语言,可用Windows写字板程序创建。 DOC文件:WORD文档。
11、PDF格式文件:PDF格式文件将文字、宇型、格式、颜色、图形、图像、超文本链接、声音和视频等信息都封装在一个文件中。HTML文件:HTML文件是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML文件的结构包括头部(Head)、主体(Body)两大部分。,超文本,若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本”,“超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分,超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等,文本块可以是一个网页,一个
12、文档,一段文字,也可以是一张图片,甚至一段声音或视频,超文本,超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格式文本。阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。超文本文件特点有:各信息块按照其内容的关系互相连接,这些文本块可以是不同的文本,也可以是同一文本中的若干不同的组成部分。每个文本块都有一些指向其他文本块或从其他文本块指向该文本块的指针(超级链接),这些指针从文本块内部的某个位置指向另外一个文本块的起始位置,用于实现文本阅读时的快速跳转。,小结:文本的分类,5.1.4 文本的编辑处理与检索,复习:使用Word的操作流
13、程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图表,进行增、删、改操作,保证文本的正确性,满足清晰、美观、便于使用等要求,文本编辑的主要内容,对字、词、句、段落进行添加、删除、修改等操作。 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等。段落的处理:设置行距、段间距、段缩进、对称方式等。页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等。,使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理文本处理内容:字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换词语排序,词语错误检测
14、,文句语法检查自动分词,词性标注,词义辨识,大陆/台湾术语转换关键词提取,文摘自动生成,文本分类文本检索(关键词检索、全文检索),文本过滤文语转换(语音合成),文种转换(机器翻译)篇章理解,自动问答,自动写作等文本压缩,文本加密,文本著作权保护,什么是文本处理?,常用文本处理软件,面向通信的文本处理软件 计算机网络上最普及的应用是用电子邮件进行通信。大多数情况下,电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌的文本编辑器功能比较简单,操作使用方便。 例如,微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。当然邮
15、件所带的附件并不受此限制。在互联网上进行聊天所使用的文本处理软件更加简单。 面向办公的文本处理软件 该类软件要求文本制作要有高效率、高质量,软件面向非专业用户,易学好用,文本处理能力,既功能丰富,又操作简单。 例如,Word、WPS2000。,常用文本处理软件,面向出版的文本处理软件 该类软件的主要功能是将文字、图形和图像等合理地安排在页面内。 例如,方正集团公司的“飞腾”排版软件、美国Adobe公司的Page Maker和PDF Writer。 面向网络信息发布和电子出版的文本处理软件 例如,微软的FrontPage、Acrobat软件。,关于文本检索,将文本按一定的方式进行组织、储存、管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第5章5.1 文本与文本处理ppt课件 5.1 文本 处理 ppt 课件
链接地址:https://www.31ppt.com/p-1428608.html