欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    中文信息处理概述.ppt

    • 资源ID:5185905       资源大小:279.99KB        全文页数:45页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文信息处理概述.ppt

    中文信息处理概述,For 对外汉语方向本科生,对外经贸大学中文学院.对外汉语,本章内容,释名汉语的特点-中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物,对外经贸大学中文学院.对外汉语,释名,中文信息处理(Chinese Information Processing)中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。汉字信息处理(Chinese Character Information Processing)用计算机对汉字所表示的信息进行的操作和加工。,汉语信息处理既立足于汉字信息处理,又区别于汉字信息处理。处理对象不再是单个的汉字或字符串,而是语言学的单位:词、短语、句子乃至篇章、文档集合。两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理、文献检索、语音识别与合成等等。,对外经贸大学中文学院.对外汉语,释名,Chinese Information Processing(CIP)中文信息处理Chinese character Information Processing汉字信息处理CIP Chinese character(IT)=Chinese ideograph(Sinology)Chinese language Information Processing汉语信息处理Language Information Processing 语言信息处理(1)NLP/CIP(2)Chinese-centered Multi-lingual Information Processing以汉语为核心的多语言信息处理,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,汉语文字文本的语言单位边界糢糊。词间无间隔人名、地名不大写句子之间界限不清晰汉字完全使用由象形文字演化而来的方块汉字;字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,词语“词”无严格的形式定义,词本身也没有明显的形态标志词没有形态变化;词性兼类现象严重虚词常常省略,与实词形式上无区别词性与句子成分之间无一一对应关系,中心谓语动词难以确定多动词连用现象突出,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点,句子结构松散我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词句子语序灵活,语句格式丰富语义灵活一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。,对外经贸大学中文学院.对外汉语,现代汉语研究现状-之于中文信息处理,现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。,汉语的计算机理解比西方语言的理解困难得多?,对外经贸大学中文学院.对外汉语,中文信息处理的研究内容,研究对象:文字和语音 语言单位和层面:字-词-句-篇 基础研究基础理论:语言学基础方法 人工智能:知识工程,机器学习,模式识别,神经计算 数学:模型理论,形式化理论,数理统计基础技术基础资源基础系统/平台应用研究应用技术应用资源应用系统/平台,对外经贸大学中文学院.对外汉语,研究对象,文字汉字键盘输入技术汉字输入技术软件汉化技术汉字字形识别技术激光照排技术文本分类信息检索,语音汉语语音识别技术汉语语音合成技术,对外经贸大学中文学院.对外汉语,语言单位和层面,字汉字编码技术汉字输入技术汉字字形和字形库管理技术汉字输出技术词汉语分词句篇中文信息检索中文信息抽取中文文本分类技术,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例,两个实例实例一关于自动升降晾衣架的对话妻子:“嘿,过了一年才坏。”丈夫:“什么呀,才一年就坏了。”丈夫理解了妻子的意思吗?,虚词词义:才(数量词前后,意义不同)背景知识:保修期知识激活机制?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例,实例二关于“沙漠化”的文章“几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。”2001年9月号就/到/就到/到/到过/过/过渡/带/来/带来/,未登录词的识别知识背景认知机制,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向歧义消解,词的切分白天鹅计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?白天鹅飞过来了白/天鹅/飞/过来/了白天鹅可以看家白天/鹅/可以/看/家/白天鹅在湖里游泳白/天鹅/?白天/鹅/?,白天鹅/-白/天鹅/-白天/鹅/-白/天/鹅/,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,同形词辨析只这只会测水温的鸭子,这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n,挺有用的这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n,没什么用,这/只/会/测/水温/的/鸭子/(切分无歧义),量词q zhi1?副词d zhi3?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,词性歧义读音相同的“连”也有不同的词性(意义):一个连有三个排“连”是名词n我们兄弟心连心“连”是动词v苹果可以连皮吃“连”是介词p,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,词义辨析,讲真话讲卫生中国队大胜/败美国队。对外经贸大学两个灯只亮一个,不过就是亮两个也不亮。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,短语结构歧义m+q+n+“的”+n三个大学的老师三/m 个/q 大学/n 的/u 老师/n,三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n,三所大学的老师 三/m 所/q 大学/n 的/u 老师/n 三位大学的老师 三/m 位/q 大学/n 的/u 老师/n,小王和小李的妹妹,李娜和郑洁的老公都是教练。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,句法结构歧义例1 会员选举他当主席例2 学生认为他是校长n+v+r+v+n,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,语义歧义以及依赖语境的歧义消解汉语语义分析(切分、标注、句法分析都无歧义)熊猫/n 吃/v 竹笋/n学生/n 吃/v 食堂/n民工/n 吃/v 大碗/n老师/n 写/v 毛笔/n汉语语义指向分析写/v 好/a 了/u(文章)写/v 累/a 了/u(老师)写/v 秃/a 了/u(毛笔)汉语语境分析小张/n 打针/v 去/v 了/u北京的春天来了,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,长句与句号、逗号 中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。”形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。1.你得藏在一个你看得见他,可是他看不见你的地方。2.车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向,指代与省略小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。重庆队得88分,客场负于台湾队2分。时态、语态、语气 我在家里。(be)我在家里看书。(in)我在看书。(-ing)你在干什么?看书。你喜欢干什么?看书。如果我是你,我就去了。如果我有时间,我就去。,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段,学习和理论探索的萌芽阶段汉字信息处理为主的早期阶段字、词等表层处理为特征的初级阶段句法和语义等深层处理为代表的中期阶段语料库统计方法兴起的近期阶段以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段,对外经贸大学中文学院.对外汉语,学习和理论探索的萌芽阶段,这一阶段以介绍国外计算语言学领域的理论方法为主。对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表。早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的中文信息学报,语言学界的国外语言学和语言文字应用。学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有哲学色彩的思考,如:80年代中期宁春岩发表的自然语言理解中的几个根本问题,以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著计算机不能做什么人工智能的极限,语言学界袁毓林1993年发表了自然语言理解的语言学假设。这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用、奠定了中文信息处理后期的理论基础。,对外经贸大学中文学院.对外汉语,汉字信息处理为主的早期阶段,1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技术受到了国家高度重视并且进入了他的第一个发展阶段汉字信息处理时代。涌现出多种汉字输入编码方案,能满足多种现实需要。王选教授等发明的汉字字库的信息压缩技术使汉字文献的印刷出版告别铅与火,进入电子时代。,对外经贸大学中文学院.对外汉语,“七四八”工程是国家重要工程项目“计算机汉字信息处理系统工程”的简称,因为该项目是1974年8月由新华社、四机部等五部委共同申请而立项的,所以简称“七四八”工程。1975年北京大学王选教授的汉字信息处理思想得到国家确认,在北大成立“七四八”工程会战组,由王选教授负责进行“计算机-汉字激光照排系统”的研制,使“七四八”工程进入实质性实施阶段。“七四八”工程标志着计算机中文信息处理技术受到了国家高度重视并且进入了它的第一个发展阶段汉字信息处理时代,从而划时代地使汉字文献的印刷出版告别铅与火,进入电子时代。,对外经贸大学中文学院.对外汉语,字、词等表层处理为特征的初级阶段,北京大学开发的华光排版系统被评为1985年中国十大科技成就之一,并荣获中国发明协会发明奖。“六五”期间(1981-1985),北京航空学院主持,中国人民大学等十几个院校,研究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程。第一个汉语自动分词系统CDWS,建立了一个有13万余词条的计算机词典,研制了一个有52个属性的汉字信息库。“七五”期间(1986-1990),建立了功能完备、实用有效的“汉字属性系统”,编篆并出版了汉字属性字典。1988年初,北京航空航天大学在承担国家“七五”科技攻关项目信息处理用规范现代汉语词库的同时,提出并经过了三年的努力,汲取了语言界和计算机界数百名专家的宝贵建议和意见,最终制定了信息处理用规范现代汉语分词规范,从计算机工程应用的需求出发,解决了语言学界争论了几十年而未解决的汉语的词的定义问题。为我国从汉字处理进入词语、语句处理打下了基础。,对外经贸大学中文学院.对外汉语,句法和语义等深层处理为代表的中期阶段,电子部计算机与微电子发展研究中心(CCID)联合国内从事中文信息处理的主要单位,从信息处理用汉语语法、语义体系的应用研究着手,以中文信息处理产品的智能化为目标,组织实施了并形成了一个完整的中文信息处理应用平台工程。从80 年代开始,在借鉴国外的自然语言语义理论的基础之上,先后提出了一系列符合汉语特点的语义分析方法和语义表示理论。,对外经贸大学中文学院.对外汉语,语料库统计方法兴起的近期阶段,语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科-语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。国内涌现出一大批语料库,包括中文生语料库、词语语料库、句法语料库;也包括口语料库、对比语料库、少数民族语料库等。,对外经贸大学中文学院.对外汉语,以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段,人们在享用Internet带来的各种便利的同时,却又被如何从浩如烟海的网上资源中,如何快速、高效的查找自己的信息所困扰,典型的主要需求有信息分类、信息提取、自动问答、基于内容的快速信息检索、基于个性的信息推送,数字化图书馆和信息网格等。中文信息处理技术必须解决网络环境下的、大规模的、信息(文本或语音)智能访问、加工处理、自动分析理解。,对外经贸大学中文学院.对外汉语,中文信息处理的现状三个流派,中文信息处理的流派和策略当前的中文信息处理领域的科技攻关项目都是以解决计算机对自然语言进行理解的问题,也就是以开发智能型的汉语分析系统为奋斗目标的。当前的中文信息处理需要以词义为基础,与句法分析相结合,以句为处理对象,寻找突破。根据指导理论和研究方法的不同,目前国内中文信息处理领域可以分为三个流派。传统计算语言学以传统计算语言学为基本理论的,主要从词素分析入手,遵循词短语(词组)语段句子的基本研究思路。这一流派的种种理论和方法都是以经验主义的研究方法,也就是以语料统计为基础的。在这个基础上又结合了一些语言规则。,对外经贸大学中文学院.对外汉语,中文信息处理的现状三个流派,HNC理论中科院声学所黄曾阳创立的概念层次网络理论,即HNC理论。这一理论的的新意在于直接从语言深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立具有语义完备性的词汇层面的表述模式和句子层面的表述模式。HNC理论认为,自然语言理解的过程就是概念联想脉络激活、扩展、浓缩、转换与存储的过程。因此,HNC设计了局部联想脉络来解决词汇层面的问题,设计了全局联想脉络来解决句类和语义块的问题。传统-语义取自词典,HNC-语义取自训诂,对外经贸大学中文学院.对外汉语,中文信息处理的现状三个流派,基于内涵模型论的语义分析 谋求在一个逻辑语义框架内来分析词汇及其分类,只要能明白句义,不必过于精细,也就是用逻辑框架来处理词汇理论。代表人物是上海交大陆汝占教授。,对外经贸大学中文学院.对外汉语,中文信息处理的现状统计方法的不足,对统计研究方法的认识 统计和语料库的思想促使语言研究者从对有限语言现象的内省式研究转到对大规模真实语言现象的研究,无疑对词频统计、词语搭配、信息检索与信息抽取等方面的研究有重大意义,因而有学者称其为中文信息处理领域的主流技术。,统计方法适用于对随机性过程的描述,而语言作为符号序列是随机性和确定性并存的过程,对此种过程中的跳变现象统计方法无能为力 统计NLP的理论本质行为主义,早已被心理学研究所否定,儿童并非纯粹依靠模仿习得所有语句 统计方法无法应对小概率事件,统计过程中平滑手段的注入无法从根本上解决数据稀疏问题 统计方法强依赖于语料库,统计NLP的效果与语料库的性质和质量密切相关,而语料库的规模、平衡性、加工深度等诸多问题并没有一个客观统一的评测标准,对外经贸大学中文学院.对外汉语,中文信息处理的现状当前中文信息处理的特征,统计与规则结合以实用的智能化系统为目标,以大规模语料测试为评价目标 基础理论研究与实用系统并重面向Internet的大规模真实文本的智能信息访问 基于内容的搜索引擎 代表性的系统有北京大学天网,计算所的“天罗”,百度,慧聪等公司的搜索引擎信息自动分类,自动摘要,信息过滤等文本级应用如上海交通大学纳讯公司的自动摘要,复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器 信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用 自动问答,机器翻译等需要更多自然语言处理和理解的应用,对外经贸大学中文学院.对外汉语,中文信息处理的现状-中文信息处理技术发展的问题与应对,汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。,对外经贸大学中文学院.对外汉语,对当前中文信息处理现状的哲学反思,理性主义与学科理性主义与语言学理性主义与中文信息处理以有限驾驭无限,对外经贸大学中文学院.对外汉语,“汉语信息处理”在研究什么?,实用系统:(1)人工系统的自然语言界面(问答系统)(2)机器翻译与机器辅助翻译(3)信息检索、信息提取与搜索引擎(4)文本管理(文本分类与聚类、文献摘要与述评、OCR后处理)(5)词典计算机辅助编纂(6)领域知识工程(术语提取、知识元数据库、百科全书编撰)(7)语音接口技术(语音识别的后处理、语音合成的预处理)(8)自然语言处理系统评测技术(9)面向语言本体研究与语言教学的应用,对外经贸大学中文学院.对外汉语,目前国内中文信息处理的主要力量和代表人物,北大:计算语言学研究所:俞士汶、常宝宝、段慧明中文系:陆俭明、詹卫东、袁毓林清华:智能技术与系统国家重点实验室:孙茂松、周强、陈群秀、张敏中文系:黄河燕北语:应用语言学研究所:张普、徐娟、杨尔弘语言信息处理研究所:宋柔对外汉语研究中心:邢红兵、郑艳群中科院声学所:黄曾阳、张全、晋耀红北师大:中文信息处理研究所:苗传江中科院计算所:白硕、孙乐、刘群,对外经贸大学中文学院.对外汉语,目前国内中文信息处理的主要力量和代表人物,中科院自动化所:模式识别中文信息学会:曹右琦、陈群秀国家语委:冯志伟、靳光瑾、肖航上海交大:陆汝占哈工大:李生、刘挺山西大学计算机系:刘开瑛南师大:陈小荷,对外经贸大学中文学院.对外汉语,目前国内中文信息处理的主要力量和代表人物,武汉大学:语言与信息研究中心萧国政鲁东大学:亢世勇人民大学:张卫国微软研究院:自然语言处理小组:黄昌宁知网:董振东汉语意合网络:鲁川全国计算语言学联合学术会议,对外经贸大学中文学院.对外汉语,本章参见,百度百科-中文信息处理、汉语信息处理黄曾阳.HNC(概念层次网络)理论.清华大学出版社,1998.黄曾阳.语言概念空间的基本定理和数学物理表示式.海洋出版社,2004.陆汝占,靳光瑾.现代汉语研究的新视角.语言文字应用.2004.2.许嘉璐.现状和设想试论中文信息处理与现代汉语研究.中国语文.2000.6.许嘉璐.研究中文信息处理,需要仰望一下天空.语言文字应用,2006.2.许嘉璐.语言学研究与中文信息处理.中文信息,1997.3许嘉璐.中文信息处理技术现状及相关语言文字研究.软件世界.1996.4.许嘉璐.语言文字学论文集.商务印书馆,2005.许嘉璐.中文信息处理若干重要问题序.中文信息处理若干重要问题.科学出版社.2003.张华平.中文信息处理技术发展简史钟义信.自然语言理解的全信息方法论.北京邮电大学学报.2004.4,对外经贸大学中文学院.对外汉语,思考题,名词解释:中文信息处理名词解释:七四八工程名词解释:字处理名词解释:词处理名词解释:句处理中文信息处理和汉语信息处理两个名称有什么区别?从汉语本身考虑,中文信息处理的难点有哪些?中文信息处理可以分为哪几个发展阶段?从处理对象的角度考虑,中文信息处理可以分为哪几个阶段?列举目前的中文生语料库、词语语料库、句法语料库。简介许嘉璐关于中文信息处理领域的流派说。基于统计的研究方法存在哪些不足?当前中文信息处理有哪几个主要特征?简介中文信息处理领域当前重大的基础理论研究成果。黄昌宁先生提出的我国当前计算语言学在基础理论方面面临的两个重大的前沿课题是什么?简介董振东先生对于中文信息处理研究的设计。,对外经贸大学中文学院.对外汉语,作业,软件体验:BM-Viavoice使用体验(可使用麦克风的台式电脑可以使用麦克风或自带麦克风的笔记本电脑)手机手写输入方式体验手写板键盘体验用OCR操作pdf文档体验四角号码字典,

    注意事项

    本文(中文信息处理概述.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开