《计算语言学》PPT课件.ppt
《《计算语言学》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《计算语言学》PPT课件.ppt(92页珍藏版)》请在三一办公上搜索。
1、第六讲 计算语言学,什么是计算语言学?请举出你概念里计算语言学研究的大致内容.,一、计算语言学的定义二、萌芽初创(语言翻译问题、语言与数学)三、计算语言学的分类四、计算语言学的特点五、汉字的信息处理六、词语的信息处理七、机器翻译,各类定义:社会的需求和技术的进步,推动着古老的语言学和新兴的计算机科学相接合,产生了一门交叉学科计算语言学。它为计算机处理语言信息(包括语言中信息成分的发现和提取,语言数据的存储、加工和传输,语言翻译和理解)提供理论模型、计算方法和实现技术。俞士汶,一、计算语言学的定义,计算语言学是一个横跨语言学、数学、计算机科学的交叉学科。冯志伟,计算语言学,数学,计算机,语言学,
2、计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,/来分析、处理自然语言,/并在计算机上用程序来实现分析和处理的过程,/从而达到以机器来模拟人的部分乃至全部语言能力的目的。百度百科/詹卫东,计算语言学的定义:是利用计算计研究和处理自然语言的学科。,狭义:指的是通过建立形式化的计算模型,用计算机理解、分析、处理自然语言的学科。广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。例1:中国红楼梦的作者:前八十回和后四十回是不是一个人。例2:方言亲属关系的计量,二、计算语言学的萌芽初创:,语言学自己的准备:1、
3、圣经创世纪中“巴比塔”的传说。旧约创世纪第11章讲述了“通天塔”的故事。很久很久以前,天下的人都居住在一个叫做古巴比伦的地方,那时候人们都使用同一种语言。后来,古巴比伦人计划修建一座塔,塔顶要高耸入云,直达天庭,以显示人们的团结和力量。塔越建越高,惊动了天庭的耶和华。他想,现在天下的人都是一个民族,都说一种语言,他们团结一致,什么奇迹都可以创造,那神还怎么去统治人类?于是上帝便决定要惩罚惩罚人类。他施魔法变乱了人们的口音,使他们无法沟通,高塔因此无法继续建造下去。最后,上帝还把人类驱散到地球的各个角落。,2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无
4、歧义的语言。十七世纪的普遍语言文字运动席卷西欧,吸引了各国学者,但最为投入的似乎是英国人。伦敦皇家学会在成立初期,主要致力于普遍语言文字的讨论,并资助威尔金斯出版论一种真实字符和一种哲学语言(1668)。牛顿对语言问题也颇感兴趣,在皇家学会哲学汇刊上发表过两篇语音学论文。,语言学的应用翻译计算语言学的研究首先是从机器翻译开始的。3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。,语言学与计算机的结合1、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。
5、2、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。,3、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。理解自然语言 使计算机具有听说读写的能力 语音识别与合成,机器翻译,自然语言人际借口,情报检索,自动文摘,信息抽取,语料库建设,4、计算语言学的进一步发展音字转换:语音识别、拼音输入自动文摘
6、:自动给出一篇或多篇文章的摘要信息检索:在海量的信息准确找到你所需要的信息信息过滤:信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,将不符合用户需求的信息过滤掉。通常可分为不良信息过滤和个性化信息过滤:不良信息过滤一般指过滤掉暴力反动色情等信息;个性化信息过滤类似于信息检索,帮助用户返回感兴趣的东西。,语言学与数学,1847年,俄国数学家B.Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。1851年,英国数学家A.DeMorgen把词长作为文章风格的一个特征进行统计研究。1894年,瑞士语言学家De Saus
7、sure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的普通语言学教程中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。,1898年,德国学者统计了德语词汇的在文本中的出现频率,编制了世界上一部频率词典德语频率词典。1904年,波兰语言学家Baudouin De Courtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学。他表示坚信,语言学将日益接近精密科学,并将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。,1933年,美国语言学家L.Bloomfield提出一个著名的论点:“数学只不过是语言所能达到
8、的最高境界。”1935年,加拿大学者E.Varder Beke提出了词的分布率的概念,并以之作为词典选词的主要标准。1944年,英国数学家发表了文学词语的统计分析一书,大规模地使用概率和统计的方法来研究词汇。,计算语言学的标志性事件:1962美国计算语言学会成立,每年举行一次年会,出版季刊美国计算语言学杂志(International Journal of Computational Linguistics)1965年在美国纽约成立国际计算语言学委员会,每两年召开一次学术研讨会。中国:我国的中文信息学会成立于1981年,出版季刊中文信息学报,隶属于中文信息学会的计算语言学专业委员会1987年6
9、月成立,1988年6月在北京举行了,首届计算语言学学术会议。,三、计算语言学的学科分类,计算语音学 计算词汇学 计算语法学 计算语义学 语料库语言学,(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。语音识别(speech recognition):机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。,一般来说,完整的语音识别要经历三个步骤:(1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。(2)声学模型与模式匹配(识别算法):将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。(3)计算机对识别结果进行语法、语义分
10、析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。,语音合成(speech synthesis):将可视的文本信息转化为可听的语音信息。哑人的手语语音iphone4S,(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。,机读词典的规模及词条的详尽程度将成为衡量一个语言信息处理系统质量的决定性因素。,(三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析(parsing)。,(四)计算语义学:如何利用计算机来分析自然语言的语义。优选语义学指的是用于自动翻译的一种语义学理论,英国人工智能专家Y.A.
11、威尔克斯于1974年提出。语义单位有 5种:义素;义式;裸模板;模板;超模板。,义素是最基本的语义单位,由义素构成义式,用以描写单词的语义;由义式构成裸模板及模板,用以描写简单句的语义;再由超模板描写更大的文句或段落的语义。威尔克斯确定了80个义素,分为 5组:语义实体:如 MAN(人类),STUFF(物质),THING(物体),PART(事物的部分),FOLK(人类的群体),STATE(存在的物质),BEAST(兽类)等等。动作:如FORCE(强迫),CAUSE(引起),FLOW(流动),PICK(挑选),BE(存在)等等。性状:如KIND(性质),HOW(动作的方式)等等。种类:如 CON
12、T(容器),THRU(孔)等等。格:如 TO(方向),SOUR(来源),GOAL(目标),LOCA(位置),SUBJ(施事),OBJE(受事),IN(包含),POSS(领属)等等。,(五)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。,北京大学人民日报标注语料库:北京语言大学的语料库:清华大学的汉语均衡语料库TH-ACorpus:山西大学的语料库:台湾中研院的语料库:现代汉
13、语平衡语料库:或 http:/www.sinica.edu.tw/tibe/2-words/modern-words/或 近代汉语标记语料库:古汉语语料库:或 或 http:/www.sinica.edu.tw/tibe/2-words/old-words/台湾南岛语典藏:闽南语典藏:汉籍电子文献:http:/www.sinica.edu.tw/tdbproj/handy1/或 香港城市大学的LIVAC共时语料库:或 http:/www.LIVAC.org 浙江师范大学的历史文献语料库:中国科学院计算所的双语语料库:中文语言资源联盟:,四、计算语言学的特点,(一)元语言的形式化1、对象语言、元
14、语言:对象语言指的是人们要研究的那种语言。元语言指的是人们描述对象语言的那种语言。从交际的角度来看,对象语言一般是人类正在使用的自然语言,也可以是死语言,元语言一般是人类正在使用的自然语言;从人机交流的角度讲,对象语言一般是类正在使用的自然语言,也可以是死语言,元语言一般是人工语言。,2、元语言为什么要形式化?自然语言太复杂了,这是自然语言做语言的最大缺陷。,计算语言学研究的重要内容:如何设计元语言才能更好地描述或叙述对象语言里的规律而且计算机能够读懂。计算语言学要考虑:一是技术上的需要,便于在计算机上实现。二是语言描述的需要,能精确深入地描述语言规律。,(二)具有可操作性:操作性描述性语言研
15、究的可操作性:告诉人们怎样从一个现成的句子(这时你并不懂这个句子的具体含义)变出他的句法结构乃至它的意义。其过程是先操作后理解。可操作性可以看成是计算语言学区别于传统语言学的特征之一。,(三)具有工程性:表现在其涉及领域的广泛和不能停留在理论和实验阶段,其最终目标是达到实用化。(四)注重语言研究的全局性和一般性:计算语言学研究的是带有普遍性和一般性的问题,而传统的语言学家往往喜欢研究的是内在的规律。,俞士汶,男,1938年 12月出生,安徽宣城人,汉族。1964年毕业于北京大学数学力学系。之后,一直在北大从事计算机学科的研究与教学工作。现任北京大学信息科学技术学院教授、计算语言学研究所学术指导
16、委员会主席。兼任中国中文信息学会和中国语文现代化学会常务理事、全国标准化技术委员会委员和三分会主任、新加坡汉语语言与计算学报联合主编等职。主持了多个国家973重点基础研究项目、国家863高技术项目、国家重点科技攻关项目、国家自然科学基金项目、国家社会科学基金项目以及国际、两岸合作项目。发表论文140多篇,著作8本。现代汉语语法信息词典等研究成果有广泛影响。得到政府部门和北京大学的多项奖励和表彰。培养了数十名计算语言学领域的博士生、硕士生,也与一批博士后和访问学者进行了合作研究。,推荐网站:北京大学语言研究所 詹卫东 卢伟推荐书:计算语言学基础 冯志伟 商务印书馆计算语言学 易绵竹 上海外语教育
17、 计算语言学与机器翻译导论 张政、苗天顺等 外语教学与研究出版社,北京大学、北语、厦大、上海师大、南京师大、华中科大、鲁东大学都有这个方向。,中文信息处理,中文信息处理的三个阶段:字处理:输入、显示、排序、排版;字形、字量词处理:词语切分、语法属性标注、词汇单位、词汇统计、词语构成、义项划分、义项统计句处理:语法搭配、句型、句式,五、汉字的信息处理(一)汉字与信息处理,笔、墨、纸、砚,甲、骨、金、木,打字机,电子计算机,汉 字,面 向人阅读笔画书写,人机互动、编码输入、自动识别,机械性质的整字书写,民族语言支持能力 NLS,(二)汉字输入,汉字输入,汉字键盘输入,语音识别,汉字识别,1、汉字识
18、别,电脑的汉字识别功能是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识,它是中文信息处理中的一项重要功能。一个实用的汉字识别系统由扫描器,计算机主机,显示器,识别软件和字库等部分组成。工作过程:文稿,书刊等通过扫描器输入计算机,提取识别特征后与字库进行比较,并把识别结果显示出来。,印刷体:单体、多体,脱机手写,汉字识别,联机手写,2、语音识别,语音识别,特定人,非特定人,大词汇量,小词汇量,孤立发音,连续发音,特定人,非特定人,大词汇量,特定人,非特定人,思维惯式,快,解放了手,一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识
19、别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。,汉字键盘输入(最广),汉字形码输入,汉字音码输入,音形码|形音码输入,汉字键盘输入,王码五笔字型郑码 T9笔画输入法,全拼,双拼,智能ABC,微软拼音,紫光拼音,搜狗,极点五笔五码智拼输入法大众形音输入法母字全能码,编码的优缺点(1),形码的优点 按字型编码,重码率低 无需顾及读音,对讲不好普通话的人适用;不认识的汉字照“样”可以输入。形码的缺点 要记忆的东西较多,难学难记;对字形不同人之间都会有不同的认识,易拆错。,音码的优缺点(2),音码的优点与人的语音思维一致,边进行文章的构思边
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算语言学 计算 语言学 PPT 课件
链接地址:https://www.31ppt.com/p-5604313.html