中文信息处理技术原理与应用.ppt
《中文信息处理技术原理与应用.ppt》由会员分享,可在线阅读,更多相关《中文信息处理技术原理与应用.ppt(55页珍藏版)》请在三一办公上搜索。
1、1,中文信息处理技术原理与应用(七),北京信息工程学院计算机系李宝安,2,第七章 中文信息处理技术的应用,中文应用系统发展概况 中文电子印刷排版系统 中文信息检索系统 基于Internet的搜索引擎 中文办公自动化系统,3,中文应用系统发展概况,对我国中文信息处理技术一些经历的回顾 我国的文字信息处理研发工作开始于一九七四年。当时国家有一专项工程,代号为七四八工程(汉字信息处理系统工程),最初拟定的研发目标有三项。一、精密型中文编辑排版系统;二、中文信息检索系统;三、中文信息远距通信系统。,4,中文信息处理的发展走了一个马鞍型 在2004年4月举行的第一届中文信息处理发展国际研讨会上,倪光南院
2、士对中文信息处理的发展进行了总结,认为中文信息处理的发展走了一个马鞍型。从20世纪70年代至90年代中期算一个高潮期,90年代中期进入低潮。自90年代未起,中文信息处理由冷转热,再度活跃。第一个高潮期 中文信息处理的第一个高潮期的核心问题是字的处理。在这一时期造就了联想、方正、四通等一批靠中文处理产品起家的企业。,5,中文信息处理的低谷期 90年代中期,电脑由DOS升级到Windows平台。微软公司自Windows 3.2全面采用当时最先进的中文信息处理技术,传统的中文信息处理产品失去了市场。这一时期可以认为是中文信息处理的低谷,原先做中文信息处理的公司纷纷转向。中文信息遭遇互联网-推动中文信
3、息处理进入了第二次高潮 90年代末,互联网忽地热闹起来。无线互联网,手机、PDA等促进中文信息技术的发展。,6,互联网时代对中文信息处理产生了新需求完成从字到语义的跨越中文检索获普遍关注机器翻译大发展识别技术领先国际语音合成走出实验室,7,中文电子印刷排版系统,在文字信息处理技术的基础上,要求达到高精度地编排出符合印刷出版要求的版面质量的计算机系统,称为电子印刷排版系统。它和一般文字处理技术的主要差别在于编排精度,文字质量,和要求编排出各种版面(书、报、刊物;文科和科技版,广告等)的格式。,8,中文电子印刷排版系统技术简介,中文编辑排版关于排版用的精密字模关于字模数目关于字体数目,9,中文电子
4、印刷排版系统设备的构成,10,其中数据采集汉字终端、汉字造字终端、图文扫描仪 组成系统的输入设备。系统的前处理部分输出的结果是经编排好的版面信息,已有版面格式,但其中的文字是以代码形式提供的,尚须转换成达到出版印刷质量的汉字字模,包括按指定要求的字号尺寸规格。这项工作由照排控制机完成。照排控制机和照排输出设备等构成系统的后处理部分。照排控制机除了把输出版面信息中的汉字代码转换成精密汉字字模信息(包括字体、字号尺寸等的变化)外,尚须要控制照排机输出具有完整信息的版面。用作系统输出设备的照排机目前普遍使用激光扫描照排机。,11,精密汉字字模和照排控制技术,文字印刷排版系统的主要功能特点是把文字,各
5、种符号、图形、照片、表格等在版面上作精确定位。因此,一个排版系统,先要定出版面精度指标。同时也要求汉字字模具有相当于版面定位精度的高质量。也就是要求有高的分辨率等级。通常精密印刷要求分辨率达到25100线毫米。具有这种分辨率等级的汉字字模称为精密汉字字模。,12,一精密型汉字字模信息压缩技术,精密汉字字模信息的压缩方法,目前应用较普遍的有:黑白段长度编码方法字模笔画轮廓描述方法(也称为矢量描述方法)精密型汉字字模库,13,黑白段编码方法 汉字字模有规则笔画和不规则笔画,14,二.字模信息还原和照排控制,在输出版面信息供制版印刷时,必须把字模压缩信息还原成实际点阵字模,包括按要求形成不同字体,不
6、同字号尺寸等文字变倍的功能;此外,还要对照排输出设备实现控制。这两项工作由照排控制器完成。照排控制器的功能,可以用硬设备实现,也可以用软件方法实现。可以用高性能的通用微型机作为控制器的主处理机,以增强设备的通用性。照排控制器除了实现上述功能外,尚应具备其它方面的功能。如提供大容量的缓冲存储,以匹配系统前后处理部分的工作速度。提供字模变形、旋转、倾斜、镜象排印、阴阳图变换、打阴影、打斜线、网格,提供灰度等级、基本图形、曲线等丰富的功能。,15,激光照排机,激光照排机是照排系统的版面输出设备。它的工作原理并不复杂,但对光学和机械动作的精度要求却很高。激光照排机的输出分辨率一般在2550线毫米(63
7、51270线吋),高的可达100线毫米。激光照排机的工作原理是用一定直径的激光束(若输出分辨率为40线毫米,则光束直径为25微米),用声光调制方法经字模信息的调制后,使光束在感光底片上感光,于是版面信息便记录到感光底片上。经显影、定形后,成为制作印刷版用的底版。除了分辨率指标外,还有输出速度。目前一种连续输出性能的照排机,输出速度在100500毫米分钟。输出样张的幅面,具有A4,A3,A2几种规格,其中A4,A3是用于书版的,A2用于报版。,16,排版软件的功能,一、排版的主要功能 排版的主要功能是使文字、符号、表格、公式、图形、照片等内容在版面上精确定位。为此,排版软件设计时要对版面分割成基
8、本尺寸,以输出分辨率的倒数来表示这一基本尺寸。也即文字、图形等能以这一基本尺寸在版面上作上下、左右调整位置,以达到精密编排的目的。,17,二、批处理和交互式排版 早期的排版软件,是以批处理方式执行的。也就是用编译方式得出目标程序。至少要在一组排版命令输入后才能执行和得出结果。近几年来发展的是一种交互式操作的排版方式,也就是解释执行的排版方式。计算机可以对每一条排版命令产生即时和正确的反应。需要解决反馈显示中的一些技术问题,可以实现全交互式的排版操作,也即国内目前流行的“即打即排”操作,将成为另一种流行的排版方式。,18,三、排版应用软件 在排版应用方面,国内已积累了不少成果。如能够编排各种文科
9、书版、刊物,各种科技书版,复杂的数学公式和各种化学分子式、符号也能自动编排。还能整版地编排各种大、小幅面的报版。将多窗口显示技术用于排版处理;开发以图形处理为特点的排版技术;吸收目前国内外流行的组版软件包的功能;增加鼠标器定位,用菜单选择方式指定排版要求的功能;开发、改善对用户的友好界面,尽可能地方便用户使用。,19,电子印刷排版系统多个层次等级,精密汉字照排系统台式印刷排版系统普及型轻印刷系统 上述三种档次等级的中文印刷排版系统应平行发展,它们各有自己的特点和适用范围。其中普及型的轻印刷系统可以和高档的中文文字处理机或PC兼容机相衔接。,20,电子印刷排版系统相关方案和产品介绍,网络时代的方
10、正报业数字化流程方案,21,方正自动化排版解决方案,22,23,24,25,中文信息检索系统,情报资料检索是现代化管理技术中的重要项目之一。也是计算机信息处理领域内的一个重要应用项目。情报资料不仅包括科技情报,也包括一般的图书资料,文献档案、新闻报导,事实数据等,用途非常广泛。早期的情报资料检索系统,都是以文件系统的形式建立,作业方式以批处理为主。自从数据管理系统技术推广应用后,情报资料检索系统也以数据库系统的形式建立,应用上有更大的灵活性,提供查找情报资料的方便性,提高了信息的利用率。,26,由于计算机的性能速度的提高,运行方式也以多用户联机实时操作为主。中文情报检索技术和英文检索在原理上完
11、全相同。一个中、英文兼容的系统,在系统中建立用中文代码表达的原始文档,就可以用作中文情报资料的检索。若是用数据库管理系统来管理中文情报资料的情况,则数据库管理系统也必须具有中、英文兼容的功能。由于汉语单字或词组之间没有明显的分隔符,因此对于汉语信息的检索实际上要比西文基于单词的检索困难得多。国内有众多单位在研究汉语分词技术,中文文本的标引技术,中文文献的自动分类方法等。,27,信息、知识、文献,一 信息信息是用文字、数据或信号等形式通过一定的传递和处理来表现各种相互联系客观事物在运动变化中所具有特征内容的总称。信息所具有的基本属性可归结为以下四方面:(1)信息具有普遍性和客观性(2)信息具有相
12、对性和特殊性(3)信息具有实质性和传递性(4)信息具有中介性和共享性,28,二 知识 知识是人类在认识和改造世界的社会实践中获得的对事物本质的认识的成果和结晶。即人类通过有目的、有区别、有选择地利用信息,对自然界、人类社会及思维方式与运动规律的认识、分析与掌握,并通过人的大脑进行思维整合使信息系统化而构成知识。1 知识的属性 知识的属性主要有:意识性信息性实践性,29,规律性继承性渗透性2 知识的类型 根据国际经合组织(OECD)的定义,人类现有的知识可分为四大类:Know what(知道是什么)关于事实方面的知识。Know why(知道为什么)关于自然原理和规律方面的知识。Know how(
13、知道怎么做)关于技能或能力方面的知识。Know who(知道谁有知识)关于到哪里寻求知识的知识。,30,三 文献 1文献的构成要素 文献是记录有知识的一切载体。即知识信息必须通过文献载体进行存储和传递,构成文献的三个最基本要素是:构成文献内核的知识信息。负载知识信息的物质载体。记录知识信息的符号和技术。2文献的基本属性知识性 传递性动态性 综上所述,信息、知识、文献三者的关系可归结为:信息是生产知识的原料,知识是被人类系统化后的信息,文献是存储、传递知识信息的载体。,31,文献信息资源的类型与特点,一 以载体材料、存储技术和传递方式划分 可分为印刷型、缩微型、声像型和机读型(电子型)。二 以撰
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 技术 原理 应用

链接地址:https://www.31ppt.com/p-6542173.html