文本获取与处理.ppt
《文本获取与处理.ppt》由会员分享,可在线阅读,更多相关《文本获取与处理.ppt(59页珍藏版)》请在三一办公上搜索。
1、第2章 文本获取与处理,主讲教师 胡永斌,2,本章主要内容,2.1 文本的基本知识 2.2 文本信息的采集方法2.3 文本信息处理2.4 超文本标记语言2.5 文本处理工具软件,数据单位,计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用千表示,千等于1024。1KB=1024B;1MB=1024KB;
2、1GB=1024MB;1TB=1024GB。,4,2.1 文本的基本知识,在计算机中,文字和数值都是用二进制编码表示的,文字信息、数值信息、符号信息统称为文本信息。对于具备中英文处理能力的计算机来说,文本信息则主要由ASCII码表所规定的字符集(包括字母、数字、特殊符号等)和汉字信息交换码所规定的中文字符集中的字符组合而成,习惯上把前者称为西文字符,而把后者称为中文字符。计算机处理文字信息主要包括输入、编辑、存储、输出等。,5,2.1.1 西文字符,西文字符是指由ASCII码表所规定的字符集,包括字母、数字、特殊符号等。ASCII是英文American Standard Code for In
3、formation Interchange的缩写,意为“美国信息交换标准代码”。1、字符编码(ASCII码):用7位二进制数表示,共能表示27=256个不同的字符,包括了计算机处理信息常用的26个英文大写字母AZ、26个英文小写字母az,数字符号09、算术与逻辑运算符号、标点符号等。在计算机中,每一个西文字符均对应一个ASCII码,例如,字母A的ASCII码值为十进制数65,小写字母a的ASCII码为十进制数97。,6,7,2、字符外观及存储:每一个字符的外形可被绘制在一个M x N的方格矩阵中,如又图(a)所示。在图中,笔画经过的方格有点用1表示,未经过的方格无点用0表示,这样形成的0、1矩
4、阵成为字符点阵。若M=N=8,可依水平方向按从左到右的顺序将0、1代码组成字节信息,每行一个字节,从上到下共形成8个字节,如右图(b)所示。这就是字符外观的点阵编码,用点阵编码存储字符外观。,(a)大写字母A的方格矩阵,(b)字符点阵及十六进制编码,8,3、字符显示过程 将所有字符的点阵编码按照其在ASCII码表中的位置顺序存放,就形成了一个字符点阵库。从ASCII码转换成字符点阵的功能称为字符发生器。通过字符发生器完成字符的显示过程。,9,2.1.2 中文字符,中文字符(即汉字)是指由汉字信息交换码所规定的中文字符集,全称为“信息交换用汉字编码字符集”,是我国国家标准总局于1981年5月1日
5、颁发的,也称为国标码集,标准名简写为GB2312-80,共收入了6763个汉字,682个数字和图形符号,并规定一个汉字的编码用两个字节表示,称此编码为汉字内码。国标GB18030-2000,收录了27000个汉字。中文字符处理的过程:首先将所有的汉字在给定的方格内绘制出点阵图像,然后按照0、1矩阵形成字节编码,再将所有汉字的点阵字节编码按照其在汉字码表中的位置顺序存放,形成汉字点阵字库。,10,2.1.5 文本与超文本文件,3种类型的文本文件:,1、无格式文本文件 只存储文字信息本身,文字以固定大小和风格输出,因而也称为纯文本,通常保存为.txt类型的文件。2、格式文本文件 不仅包含文字信息,
6、还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版信息。编辑这类文件,可设置文本的字体、字号、颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。格式文本要用功能较强的字处理软件来编辑,如MS Word和金山WPS等。,11,图2-7 格式文本,12,3、超文本文件 超文本文件是建立在非线性的超文本概念基础上的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文,图2-8 超文本文件的逻辑结构定义,件是由超文本标记语言(HTML)和被分割的不同文本块
7、按照HTML规定的格式要求组成的。,13,图2-9(a)超文本文件实例(b)浏览效果,用超文本描述语言定义的超文本文件需要用相应的浏览器浏览才能按照其非线性组织方式阅读内容。图2-9给出了一个具体的超文本文件实例和浏览效果。当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,这种超文本文件就又被称为超媒体或超媒体文件。,14,表2-2 常用文本文件存储类型说明表,2.1.6 常用文本文件存储类型,15,2.2文本信息的采集方法,1、键盘输入:主要的输入方法。通过键盘,英文信息可直接输入;中文信息则通过不同的中文输入编码
8、来完成。2、手写输入:一种非常人性化的中英文输入法,适合于不习惯键盘操作的人群和没有标准英文键盘的场合 3、语音输入:语音输入是通过计算机中的音频处理系统(主要包括声卡和麦克风),采集处理人的语音信息,再经过语音识别处理,将说话内容转换成对应的文字完成输入。4、OCR输入:是指用扫描仪将印刷文字以图像的方式扫描到计算机中,再用OCR文字识别软件将图像中的文字识别出来,并转换为文本格式的文件,完成文本信息的输入。,文本的获取技术,1.输入法的分类:包括键盘输入法、手写输入法和语音输入法等。2.键盘输入法按编码原理可分为:音码输入法,如全拼、智能ABC、拼音加加、智能狂拼、谷歌输入法、搜狗输入法、
9、QQ输入法等;形码输入法,如五笔、郑码等;音形码输入法,如二笔、自然码、一笔等;,模式识别(pattern recognition)是指借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。文本识别技术语音识别技术手写识别技术,文本的获取技术,3.文字识别输入 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。常见软件包括汉王OCR,清华紫光OCR,尚书OCR等。,文本的获取技术,4.语音识别输入语音识别技术就是让
10、机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取、模式匹配及模型训练三个方面。,4.语音识别输入推荐软件 IBM ViaVoice Pro 简体中文版 Microsoft SDK 语音识别软件,文本的获取技术,5.手写识别(Handwriting Recognize)输入法手写识别是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,手写输入是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应用时代。手写输入法需要配套的硬件手写板,在配
11、套的手写板上用笔(可以是任何类型的硬笔)来书写录入汉字,不仅方便、快捷,而且错字率也比较低。,汉王手写板,汉王手写电脑领航系列A12A,ipad,24,2.3文本信息处理,2.2.1 格式文本处理 格式文本是由文本信息、文本属性信息以及文本版面信息等三部分内容组成。文本信息是格式文本的内容,是主体部分;文本属性信息、版面信息用来表现和反应文本的形式。内容与形式的适当搭配,是格式文本处理的基本要求。格式文本处理的主要目的是为了出版发行(包括打印、电子发行等)。除了创意和设计风格外,格式文本处理在技术方面有以下几方面的基本内容:,1、版面格式设置 版面布局:主要指文本版面的上、下、左、右四周的边距
12、。以及页眉、页脚、页码等内容的定位,最后确定可排版的版心区域。如图2-15(a)所示,25,图2-15 格式文本的版面格式,版面风格:主要指版心区域文字的排列方向(横向、纵向)和纸张类型(空白纸、横格纸、方格纸)等内容。如图2-15(b)(c)(d)(e)所示。,26,2.文字属性编辑,文本中的文字属性包括文字的字体(Font)、字号大小(Size)、风格(Style)、定位(Align)、颜色(Color)等内容,属性编辑就是通过相应的操作实现对这些属性值的设置和修改。(1)字体,计算机中的字体由安装的不同字库来提供,通常都安装在Windows系统下的Fonts目录中。除了英文字体外,Win
13、dows系统还提供了许多中文字体,主要包括宋、仿、黑、楷、隶书、行楷、幼圆等近20种。,图2-16 部分中文字体,27,系统还提供了一些标志符号库,其中存放了许多装饰性标志或符号,需要时可以象使用文字一样使用这些标志符号。,图2-17 Wingdings2字体范例,28,(2)字号:汉字的大小通常用规定大小的字号来描述,分为初号、小初号、一号、二号一直到八号,初号字最大,八号字最小。西文字符通常则是直接给出字符的大小,以“磅”(Point)为单位,最小字为5磅,最大字为72磅。“磅”值越大,字就越大。表2-3给出了汉字字号与“磅”以及毫米之间的对应关系。,29,(3)风格:具体风格选择有:普通
14、、加粗、斜体、下划线、字符边框、字符底纹和阴影等。(4)颜色:(5)定位:文字的定位主要有:左、右对齐、居中、两端对齐以及分散对齐等设置,使用时根据需要加以选择。2.非文本内容排版 非文本内容如图片、表格、数学公式、文本框等,合理使用和处理这些内容,不仅可实现版面的文、图、表等表现形式的综合利用,还能将格式文本应用于科技资料处理中,增加格式文本的表现力和说明力。需要特别强调的是,文本版面及文字属性设置虽然是格式文本处理的主要途径和重要内容,但文本内容的正确性、准确性、翔实性、权威性等更为重要。所以要在保证内容质量的前提下再追求形式的多样,这是任何文本处理的最基本原则。,30,2.2.2 超文本
15、处理 超文本处理是在格式文本处理的基础上,充分发挥超文本的非线性网络结构的优势,集成多种媒体信息于一体,设计处理灵活方便的交互操作,实现交互式联想阅读。1、文本设计 主要包括内容设计、结构设计、交互操作设计三个方面。(1)内容设计 文本内容设计强调内容的精简、适当,不能繁琐。对于那些希望引起人们关注的文本内容,更应在位置和显示方式上作特殊处理,必要时可通过超级链接在新窗口打开整个文本阅读。,31,(2)结构设计 指根据超文本的非线性网络特点,按照文本内容的内在逻辑关系,将要表现的文本内容分成若干相对独立的文本块,并为每个文本块设置检索关键词,以便更好地反映他们之间的联想关系。,32,(3)交互
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 获取 处理
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-6226937.html