中文信息处理技术原理与应用.ppt
1,中文信息处理技术原理与应用(七),北京信息工程学院计算机系李宝安,2,第七章 中文信息处理技术的应用,中文应用系统发展概况 中文电子印刷排版系统 中文信息检索系统 基于Internet的搜索引擎 中文办公自动化系统,3,中文应用系统发展概况,对我国中文信息处理技术一些经历的回顾 我国的文字信息处理研发工作开始于一九七四年。当时国家有一专项工程,代号为七四八工程(汉字信息处理系统工程),最初拟定的研发目标有三项。一、精密型中文编辑排版系统;二、中文信息检索系统;三、中文信息远距通信系统。,4,中文信息处理的发展走了一个马鞍型 在2004年4月举行的第一届中文信息处理发展国际研讨会上,倪光南院士对中文信息处理的发展进行了总结,认为中文信息处理的发展走了一个马鞍型。从20世纪70年代至90年代中期算一个高潮期,90年代中期进入低潮。自90年代未起,中文信息处理由冷转热,再度活跃。第一个高潮期 中文信息处理的第一个高潮期的核心问题是字的处理。在这一时期造就了联想、方正、四通等一批靠中文处理产品起家的企业。,5,中文信息处理的低谷期 90年代中期,电脑由DOS升级到Windows平台。微软公司自Windows 3.2全面采用当时最先进的中文信息处理技术,传统的中文信息处理产品失去了市场。这一时期可以认为是中文信息处理的低谷,原先做中文信息处理的公司纷纷转向。中文信息遭遇互联网-推动中文信息处理进入了第二次高潮 90年代末,互联网忽地热闹起来。无线互联网,手机、PDA等促进中文信息技术的发展。,6,互联网时代对中文信息处理产生了新需求完成从字到语义的跨越中文检索获普遍关注机器翻译大发展识别技术领先国际语音合成走出实验室,7,中文电子印刷排版系统,在文字信息处理技术的基础上,要求达到高精度地编排出符合印刷出版要求的版面质量的计算机系统,称为电子印刷排版系统。它和一般文字处理技术的主要差别在于编排精度,文字质量,和要求编排出各种版面(书、报、刊物;文科和科技版,广告等)的格式。,8,中文电子印刷排版系统技术简介,中文编辑排版关于排版用的精密字模关于字模数目关于字体数目,9,中文电子印刷排版系统设备的构成,10,其中数据采集汉字终端、汉字造字终端、图文扫描仪 组成系统的输入设备。系统的前处理部分输出的结果是经编排好的版面信息,已有版面格式,但其中的文字是以代码形式提供的,尚须转换成达到出版印刷质量的汉字字模,包括按指定要求的字号尺寸规格。这项工作由照排控制机完成。照排控制机和照排输出设备等构成系统的后处理部分。照排控制机除了把输出版面信息中的汉字代码转换成精密汉字字模信息(包括字体、字号尺寸等的变化)外,尚须要控制照排机输出具有完整信息的版面。用作系统输出设备的照排机目前普遍使用激光扫描照排机。,11,精密汉字字模和照排控制技术,文字印刷排版系统的主要功能特点是把文字,各种符号、图形、照片、表格等在版面上作精确定位。因此,一个排版系统,先要定出版面精度指标。同时也要求汉字字模具有相当于版面定位精度的高质量。也就是要求有高的分辨率等级。通常精密印刷要求分辨率达到25100线毫米。具有这种分辨率等级的汉字字模称为精密汉字字模。,12,一精密型汉字字模信息压缩技术,精密汉字字模信息的压缩方法,目前应用较普遍的有:黑白段长度编码方法字模笔画轮廓描述方法(也称为矢量描述方法)精密型汉字字模库,13,黑白段编码方法 汉字字模有规则笔画和不规则笔画,14,二.字模信息还原和照排控制,在输出版面信息供制版印刷时,必须把字模压缩信息还原成实际点阵字模,包括按要求形成不同字体,不同字号尺寸等文字变倍的功能;此外,还要对照排输出设备实现控制。这两项工作由照排控制器完成。照排控制器的功能,可以用硬设备实现,也可以用软件方法实现。可以用高性能的通用微型机作为控制器的主处理机,以增强设备的通用性。照排控制器除了实现上述功能外,尚应具备其它方面的功能。如提供大容量的缓冲存储,以匹配系统前后处理部分的工作速度。提供字模变形、旋转、倾斜、镜象排印、阴阳图变换、打阴影、打斜线、网格,提供灰度等级、基本图形、曲线等丰富的功能。,15,激光照排机,激光照排机是照排系统的版面输出设备。它的工作原理并不复杂,但对光学和机械动作的精度要求却很高。激光照排机的输出分辨率一般在2550线毫米(6351270线吋),高的可达100线毫米。激光照排机的工作原理是用一定直径的激光束(若输出分辨率为40线毫米,则光束直径为25微米),用声光调制方法经字模信息的调制后,使光束在感光底片上感光,于是版面信息便记录到感光底片上。经显影、定形后,成为制作印刷版用的底版。除了分辨率指标外,还有输出速度。目前一种连续输出性能的照排机,输出速度在100500毫米分钟。输出样张的幅面,具有A4,A3,A2几种规格,其中A4,A3是用于书版的,A2用于报版。,16,排版软件的功能,一、排版的主要功能 排版的主要功能是使文字、符号、表格、公式、图形、照片等内容在版面上精确定位。为此,排版软件设计时要对版面分割成基本尺寸,以输出分辨率的倒数来表示这一基本尺寸。也即文字、图形等能以这一基本尺寸在版面上作上下、左右调整位置,以达到精密编排的目的。,17,二、批处理和交互式排版 早期的排版软件,是以批处理方式执行的。也就是用编译方式得出目标程序。至少要在一组排版命令输入后才能执行和得出结果。近几年来发展的是一种交互式操作的排版方式,也就是解释执行的排版方式。计算机可以对每一条排版命令产生即时和正确的反应。需要解决反馈显示中的一些技术问题,可以实现全交互式的排版操作,也即国内目前流行的“即打即排”操作,将成为另一种流行的排版方式。,18,三、排版应用软件 在排版应用方面,国内已积累了不少成果。如能够编排各种文科书版、刊物,各种科技书版,复杂的数学公式和各种化学分子式、符号也能自动编排。还能整版地编排各种大、小幅面的报版。将多窗口显示技术用于排版处理;开发以图形处理为特点的排版技术;吸收目前国内外流行的组版软件包的功能;增加鼠标器定位,用菜单选择方式指定排版要求的功能;开发、改善对用户的友好界面,尽可能地方便用户使用。,19,电子印刷排版系统多个层次等级,精密汉字照排系统台式印刷排版系统普及型轻印刷系统 上述三种档次等级的中文印刷排版系统应平行发展,它们各有自己的特点和适用范围。其中普及型的轻印刷系统可以和高档的中文文字处理机或PC兼容机相衔接。,20,电子印刷排版系统相关方案和产品介绍,网络时代的方正报业数字化流程方案,21,方正自动化排版解决方案,22,23,24,25,中文信息检索系统,情报资料检索是现代化管理技术中的重要项目之一。也是计算机信息处理领域内的一个重要应用项目。情报资料不仅包括科技情报,也包括一般的图书资料,文献档案、新闻报导,事实数据等,用途非常广泛。早期的情报资料检索系统,都是以文件系统的形式建立,作业方式以批处理为主。自从数据管理系统技术推广应用后,情报资料检索系统也以数据库系统的形式建立,应用上有更大的灵活性,提供查找情报资料的方便性,提高了信息的利用率。,26,由于计算机的性能速度的提高,运行方式也以多用户联机实时操作为主。中文情报检索技术和英文检索在原理上完全相同。一个中、英文兼容的系统,在系统中建立用中文代码表达的原始文档,就可以用作中文情报资料的检索。若是用数据库管理系统来管理中文情报资料的情况,则数据库管理系统也必须具有中、英文兼容的功能。由于汉语单字或词组之间没有明显的分隔符,因此对于汉语信息的检索实际上要比西文基于单词的检索困难得多。国内有众多单位在研究汉语分词技术,中文文本的标引技术,中文文献的自动分类方法等。,27,信息、知识、文献,一 信息信息是用文字、数据或信号等形式通过一定的传递和处理来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。信息所具有的基本属性可归结为以下四方面:(1)信息具有普遍性和客观性(2)信息具有相对性和特殊性(3)信息具有实质性和传递性(4)信息具有中介性和共享性,28,二 知识 知识是人类在认识和改造世界的社会实践中获得的对事物本质的认识的成果和结晶。即人类通过有目的、有区别、有选择地利用信息,对自然界、人类社会及思维方式与运动规律的认识、分析与掌握,并通过人的大脑进行思维整合使信息系统化而构成知识。1 知识的属性 知识的属性主要有:意识性信息性实践性,29,规律性继承性渗透性2 知识的类型 根据国际经合组织(OECD)的定义,人类现有的知识可分为四大类:Know what(知道是什么)关于事实方面的知识。Know why(知道为什么)关于自然原理和规律方面的知识。Know how(知道怎么做)关于技能或能力方面的知识。Know who(知道谁有知识)关于到哪里寻求知识的知识。,30,三 文献 1文献的构成要素 文献是记录有知识的一切载体。即知识信息必须通过文献载体进行存储和传递,构成文献的三个最基本要素是:构成文献内核的知识信息。负载知识信息的物质载体。记录知识信息的符号和技术。2文献的基本属性知识性 传递性动态性 综上所述,信息、知识、文献三者的关系可归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识信息的载体。,31,文献信息资源的类型与特点,一 以载体材料、存储技术和传递方式划分 可分为印刷型、缩微型、声像型和机读型(电子型)。二 以撰写的目的和文体划分 主要可分为著作、学术论文、专利说明书、科技报告、技术标准、科技档案、产品资料。其中信息含量、学术价值和使用频率较高的为前五种。,32,三 按信息的加工深度划分 文献信息资源按其信息加工深度划分,可分为零次文献信息、一次文献信息、二次文献信息、三次文献信息和高次文献信息。从零次文献信息资源到一次、二次、三次、高次文献信息资源,是一个从不成熟到成熟,由分散到集中,由无序到有序,由博而略,由略而深,对知识信息进行不同层次加工的过程。每一过程所含知识信息的质和量都不同,对人们利用知识信息所起的作用也不同。,33,信息检索的含义与实质,信息检索通常是指从以任何方式组成的信息集合中,查找特定用户在特定时间和条件下所需信息的方法与过程,完整的信息检索含义还包括信息的存储。从而可知,信息检索的全过程应包括两个主要的方面:1信息标引和存储过程2信息的需求分析和检索过程,34,计算机检索的发展历史,脱机检索 联机检索 光盘检索 网络检索,35,计算机检索原理,计算机信息检索的原理可归纳为:将检索提问标识与系统中的存贮文献的特征标识进行比较,并输出命中文献,即字符串匹配和逻辑运算的过程。,36,信息检索的类型与特点,书目信息检索 全文信息检索 数据信息检索 事实信息检索,37,中文文本的标引,一 如何进行中文标引?(主题,作者,标题,文种,页码,单位等)现在全球有那些实用的自动标引系统?在手工标引中,标引员的一般工作流程是:阅读待标引的文献分析文献内容提取文献主题概念用词语符号或语句去表达主题概念使表达规范化(转换为受控词)编制索引款目将全部索引款目汇集和编辑为索引或文档。在自动标引中,手工标引的基本内容和要求应当保留下来,但实现的方法和处理流程可以不同。,38,标引作业自动化的一般流程是:a.获得机器可读的待标文献文本。b.语句分析。c.词语加权。d.确定标引词的权阈值。e.选出标引词。f.转换。g.文档生成与索引编辑输出。h.反馈。,39,二.主题的表现形式有哪几种?哪种最实用?如何评价?标引就是标识、引导,是描述文献“关于什么”。生成二次文献时,需要进行分类标引,作者标引,作者单位标引等,但主题标引是最重要的标引。主题从表现层次上来看,从低到高依次为:主题词、主题概念、主题句、主题段落、主题篇章。摘要也是某种形式的主题。在主题自动提取和标引的历史上,由于系统和资源等的限制,大部分工作都仅仅局限在主题词这一层面上。从信息检索的角度来看,主题概念可能是相对比较实用的一种。主题概念不仅包含了主题词,它更是比主题词高一个档次的表现。但是,我们也应当承认,实现主题概念的标引的困难远远大于主题词标引。主题概念也是进行计算机自动文献分类和智能搜索引擎开发的很好的,甚至是关键的技术。,40,从网络的角度的来看,主题句的表现形式可能是最具有应用价值的研究。当用户需要在访问Internet网络上的Web页面和E-mail时,最好有这样一种智能的工具软件,将所访问对象的主题句自动提取出来,以最简洁的速度传输过来,节省时间和费用。,41,三.如何进行知识标引?世界上有没有有关的报导与讨论?应当说明,“知识标引”和“基于知识的标引”不是完全相同的概念。知识标引是对文献用提取或发现的知识进行标引,这些知识原来是隐性地蕴涵于文本之中的,而基于知识的标引则是根据事先获取或存储的知识(这些知识大都是用规则的方式存储的)进行主题标引。通过Internet的搜索引擎,根据关键词“知识标引”进行检索,认为目前世界上进行知识标引的报导基本为空白,而基于知识的标引则已经有报导可见。从文本中进行知识发掘,是比结构化的数据记录中进行知识发现和数据挖掘更难(尽管更有意义)的工作。,42,四.如何进行立体动态面向用户的分类?1 立体指的是在一个分类系统中,同时存在着多种分类体系,这些分类体系可以进行相互转换,以便于人们从不同的角度对同一事物进行观察,同时适应世界上存在着许多不同的分类体系,无法合而为一的事实。2 动态指的是信息的增加是不均匀的,一个时间某个或某些类别分枝可能会变得很粗,这样就破坏了均匀分类、便于快速检索的分类原则。为此,应当使分类体系能够随着信息的不平衡增长而动态地进行调整,从而保持类别体系相对平衡的状态。3 面向用户指的是不同的用户需要不同的分类体系,因此,要能够根据用户需要,自动地构建不同的分类体系。,43,五.如何对中文信息进行分类?分类应当按照有利于检索的准、快、全的目标。1 有利于查准2 有利于查快3 有利于查全,44,六.分类体系要不要对现有的分类体系进行改造?1 传统的图书分类体系已经不能适应网络信息分类的需要 2 现有的网络分类体系需要进一步的改造,45,信息检索技术,信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有布尔检索、词位检索、截词检索和限制检索。,46,一 布尔检索 利用布尔逻辑算符进行检索词的逻辑组配,是常用的一种检索技术。(1)逻辑与(2)逻辑或(3)逻辑非 二.词位检索 词位检索是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索。词位检索是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,47,三 截词检索 截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,可节省输入的字符,又可达到较高的查全率。四 限制检索 使用截词检索,简化了布尔检索中的逻辑或功能,并没有改善布尔检索的性质。使用位置检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。常用的字段代码有标题(TI)、文摘(AB)、叙词或受控词(DE或 CT)、标识词或自由词(ID或 UT)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的系统有不同的表达形式和使用规则,在进行字段限制检索时,应参阅系统及有关数据库的的使用说明,避免产生检索误差。,48,基于Internet的搜索引擎,1.概念 从广义上讲,搜索引擎应包括两部分:一是对信息的采集、存储和组织。搜索引擎按照一定规律和方式对Web站点进行搜索,将搜索到的WWW页面信息存储到搜索引擎的数据库,并按照一定方式进行分类,建立索引数据库。此阶段,搜索引擎是客户机,向WWW站点提出搜索请求,各类信息资源系统是服务器。二是信息检索。用户用一定方式检索搜索引擎服务器上WWW站点或网页。此阶段,用户端是客户机,向搜索引擎提出检索请求,搜索引擎是服务器。从狭义上讲,搜索引擎是针对用户而言的,即进行信息检索。其基本检索构成主要是从这一层面来进行描述的。主要由关键词检索和分类浏览两部分构成。,49,2分类 目前因特网上的搜索引擎很明显地可分为两大类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎,当然这两类搜索引擎的功能是互相借鉴和渗透的。Internet上的搜索引擎数千个,还可以从多种角度对其进行分类。这里仅从搜索语种、检索功能和检索内容方面进行划分。(1)按搜索语种划分 按搜索语种,可分为中文搜索引擎和西文搜索引擎。1)中文搜索引擎 主要包括中国大陆、港澳台、新加坡等地的各种中文搜索引擎。例如:中国大陆主要搜索引擎有:中国人、雅虎、搜狐、新浪、网易、百度、悠游、找到啦、搜索客等。港澳台主要的搜索引擎有:蕃薯藤、怪兽、茉莉之窗等。2)西文搜索引擎 主要包括国外搜索引擎。例如:Altavista、HotBot、Excite、Lycos、Yahoo!等。,50,(2)按检索功能划分 按检索功能,分为单搜索引擎和多搜索引擎 1)单搜索引擎:主要是指搜索引擎之间没有嵌套,是独立的单一性搜索引擎。2)多搜索引擎:是指一个搜索引擎包含多个单搜索引擎。例如:(3)按检索内容划分 按检索内容,分为综合型搜索引擎和专题型搜索引擎 1)综合型搜索引擎:搜索时,不受主题范围和数据类型限制,可根据需要搜索几乎任何学科的信息。2)专题型搜索引擎:搜索时,主题范围和数据类型受到限制,只能检索到某一专题的网址或网页。例如:美国化学工业专业搜索引擎、化工Yahoo、中国电力搜索引擎等。,51,3检索功能 除分类浏览或自由词检索外等基本功能外,还应提供各种检索功能扩展,如逻辑检索功能(支持AND、OR、NOT),其他逻辑检索功能(NEAR、PHRASE)和各种其它功能(如截词检索)等。4结果显示 搜索引擎总是要将检索结果返回给用户,而结果显示的好坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织,如何排序,是否提供足够的相关信息(内码、文件大小、文件日期等),对用户对检索结果的判断具有很大的影响。5页面组织 大多数搜索引擎本身就是WEB站点,其页面组织就如同用户的使用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能根据用户需求定制也是页面组织的一个重要内容。6其他功能 搜索引擎,尤其是国外的搜索引擎,为了招揽用户,在提供搜索服务之外,还提供其他相关服务。如新闻提供、免费EMAIL,自动翻译、网上聊天,常用信息(天气、旅游等)等,以其吸引更多的用户,从而获取更多的广告收益。,52,国外主要搜索引擎对照,53,中文搜索引擎对照总表,54,55,下课了。,追求,休息一会儿。,