中文信息处理ChineseInformationProcessing.ppt
《中文信息处理ChineseInformationProcessing.ppt》由会员分享,可在线阅读,更多相关《中文信息处理ChineseInformationProcessing.ppt(33页珍藏版)》请在三一办公上搜索。
1、中文信息处理Chinese Information Processing,张宇哈尔滨工业大学计算机科学与技术学院,2023年8月23日2时39分,中文信息处理-绪论,2,主要教材,朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术教程,清华大学出版社。2005年9月第一版Christopher D.Manning,Hinrich Schutze。统计自然语言处理基础,电子工业出版社。2005年1月第一次印刷,2023年8月23日2时39分,中文信息处理-绪论,3,2023年8月23日2时39分,中文信息处理-绪论,4,主要内容,信息处理中文信息处理计算机中文信息处理主要研究对象现代汉语的特点
2、中文信息处理的发展中文信息处理技术发展问题的探讨,2023年8月23日2时39分,中文信息处理-绪论,5,信息,控制论创始人(维纳 Norbert Wiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。信息论奠基者(香农 Clause Shannon)信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值Robert M.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息,2023年8月23日2时39分,中文信息处理-绪论,6,信息的分类,按照计算机处理的信息形式文本信息多媒体信息超
3、媒体信息按照信息的结构化程度结构化信息半结构化信息非结构化信息按照信息的保密程度公开信息一般保密信息绝密信息,2023年8月23日2时39分,中文信息处理-绪论,7,信息处理,信息处理就是对信息的接收、存储、转化、传送和发布信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地;信息的发布:把信息通过各种表示形式展
4、示出来。,2023年8月23日2时39分,中文信息处理-绪论,8,中文信息处理,中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。计算机科学技术百科全书清华大学出版社,1998,2023年8月23日2时39分,中文信息处理-绪论,9,计算机中文信息处理主要研究对象,汉字键盘输入技术汉字输出技术软件汉化技术汉字字形识别技术汉语语音识别技术激光照排技术中文平台文本分类信息检索,2023年8月23日2时39分,中文信息处理-绪论,10,汉字键盘输入技术,汉字键盘输入技术是
5、一种通过键盘使汉字进入计算机的技术汉字编码采用四位十进制数把常用的汉字用“0”9”十个数字按照次序进行编码四角码(字形码)用“0”9”十个数字键对汉字的四个角的形状进行编码机内码用2字节、3字节、4字节来表示一个汉字的机器内部码国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准,2023年8月23日2时39分,中文信息处理-绪论,11,汉字输出技术,汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出汉字字库点阵字库GB5199.1-2001和GB5007-2001是典型的16点阵和24点阵字库矢量字库采用矢量的
6、方法,对每个汉字信息用一组矢量进行描述,2023年8月23日2时39分,中文信息处理-绪论,12,软件汉化技术,软件汉化是把西文软件直接改造成中文软件的一种技术西文操作系统汉化成中文操作系统内核汉化外挂汉化西文应用软件经过汉化后能够具备处理中文的能力界面的汉化应用程序中中文的通行,2023年8月23日2时39分,中文信息处理-绪论,13,汉字字形识别技术,汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码联机识别脱机识别汉字字形识别过程汉字识别前处理汉字分类和判别汉字识别后处理,202
7、3年8月23日2时39分,中文信息处理-绪论,14,汉语语音识别技术,汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等语音识别的过程语音识别单元的选取特征参数提取技术模式匹配及模型训练技术,2023年8月23日2时39分,中文信息处理-绪论,15,激光照排技术,激光照排,即电子排版系统1946年,美国人发明了手动光学照相排版机20世纪60年代,德国人制造了阴极射线管式照排1975年,英国人开始了激光照排的研究1974年8月,国家设立了748工程,2023年8月23日2时39分,中文信息处理-绪论,16,中文平台,中文平台是指处理中文信息的软件系统的集合,包括支持中
8、文的系统软件、支撑软件和应用软件汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字API平台:操作系统提供有关中文信息处理所需要的一套API接口中文平台:在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品,2023年8月23日2时39分,中文信息处理-绪论,17,文本分类,文本分类是一种确定文章所属类别的情报分析方法基于词的归类技术基于知识的归类技术基于信息的归类技术,2023年8月23日2时39分,中文信息处理-绪论,18,信息检索,文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面索引的建立自动分类自动聚类文摘(单文档文摘、多文档文摘)检索结果的排序(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 ChineseInformationProcessing
链接地址:https://www.31ppt.com/p-5816042.html