欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    多义词甄别的知识库建构与对传统词典义项的改造.ppt

    • 资源ID:6266098       资源大小:287.99KB        全文页数:70页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多义词甄别的知识库建构与对传统词典义项的改造.ppt

    多义词甄别的知识库建构与对传统词典义项的改造,厦门大学中文系国家语言资源监测与研究中心教育教材语言分中心苏新春 2009-9-14北京大学计算语言学研究所,要点:,WST系统介绍义项库的来源与作用 传统词典义项WSB存在的问题对传统词典义项的改造,词义标注就是用计算机为真实语境中的每个词选择、确定并标示一个适切、对应的义项。,北大计算语言学所对这一研究进行了卓越的研究。吴云芳、俞士汶信息处理用词语义项区分的原则和方法(2007)吴云芳词义消歧研究:资源、方法与评测(2009)。国内学者在这一领域发表了重要成果的还有黄昌宁、童翔、李涓子、金澎、卢志茂、刘挺、李生、鲁松、白硕、段慧明、郭涛、杨尔弘、张国清、张永奎等先生。详见吴文(2009),我们开始此项研究的缘起:承担了国家社科基金课题:基于国家语委“通用语料库”之上的汉语义频词库的开发(04BYY009)。原课题目标主要是理论探索与数据获求,无意走上了这条不得不走的艰难之道。,主持人:苏新春主要参加人:李安、卢伟清、洪桂治、蒋媛、曾妍妍、刘海燕参加人:张蕾、唐师瑶、张玉彪、田立宝、武超杰、王艳春、王珊、石梦苏、王建军、郭佳、徐晓煜、黄挺、刘楠、王天佐、周蕾、张丹丹、刘名、叶醒悦、肖婷华、余龙浩、张其良、赵方、徐婧、栾玉皎等。,2004年以来经历过的阶段:建设语料库;讨论理论模型;提取规则;修订义项;验证库;,苏新春、王惠、卢伟清、秦少康,以义项为单位,以义群为纽带,以词义辨析为内容进一步完善机用语言知识库之方案,第六届汉语词汇语义学会议论文集(SINGAPORE COLIPS PUBLICATIONS),2006。苏新春、李安,计算机多义词自动识别中的语义标注,第9届汉语词汇语义学术研讨会报告论文,新加坡,2008,“现代汉语多义词词义自动标注系统”Automatic Polysemous Sense Tagging of Modern Chinese简称WST,WST包括以下七个分库:语料库义项库规则库语法库语义库验证库义频库,1语料库全称为“现代汉语语料库”。容量达1.9亿字,包括新闻语料、文学作品、教材、科普作品等。义项标注提取规则的来源库,所有词的使用规则的提取都是根据对该库里词语真实状态进行概括、提炼的结果。,2义项库全称为“现代汉语词义标注用义项库”(Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称WSB。包括词8万余条,义项9万余个。有多义词近9千条。主要吸收了现代汉语词典第3版、第5版的内容,个别参考了汉语大辞典,另增加了2万余条语文性词语及部分义项。义项库是词义标注的来源,也是衡量词义标注效果的主要标准,更是寻找词义特征、确定规则时的依据。,3语义库全称为“现代汉语语义分类库”(A Thesaurus of Modern Chinese),简称TMC。分一级类9个,二级类62个,三级类516个,四级类2086个,五级类12602个。嵌于其中,起帮助识别义项语义特征的辅助作用。在标注工作中能起到鉴别作用的最低可至3或4级类。,4语法库全称为“现代汉语语法信息词典”,北大俞先生主持研制。起帮助识别义项语法特征的辅助作用。,5规则库全称为“现代汉语多义词词义搭配知识库(Polysemy Word Sense Collocation Knowledge Base of Modern Chinese)”,简称PCKB。是确定一个词在具体语境中使用义项的条件与依据。该库保存了对高频、义项在2-5之间、词频在100以上的3700多条双音节多义词所提取的全部使用规则。为每个词语描绘出具体规则,平均每个词9条规则共27000条。,6验证库全称为“现代汉语词义标注验证库”(Word Sense Tagged Corpus of Modern Chinese),简称WSTC。是人工标注了义项的语料库,主要作为对词义标注效力进行检验,对规则提取、修订、完善起校正、验测作用的实验库。,7义频库全称为“现代汉语多义词词义频级库”(Polysemous Senses Frequency Rank base of Modern Chinese),简称PFRD。是一个动态数据库。最初根据语感、简单语料调查以及词典义项属性标识给义项进行粗糙义频分级,并在词义标注过程中起帮助作用。最后根据标注结果不断调整、细化,最终形成精细、准确的义频调查结果库。,二、义项库的来源与作用,义项库WSB是词义标注时义项选择的来源。但又不仅仅是如此。WSB对研究中的几乎所有环节都起着重要的制衡作用:机器识别的对象;提取规则的依据;标注的对象;对语料进行识读的语义单位;标注义项的应用目的;,义项库在整个系统中的作用:来源于语料库;延伸至语法库语义库;衍生出规则库;服务于验证库;最后显示于大规模的真实文本语料库。,根据中文信息处理的目的、条件、需求,在改造、完善传统词典义项的基础上来建构机用义项库成为当务之急。传统词典义项与机用词典义项有何不同?收录对象?功能与目的?识别能力?识别手段?,义项来源于何处:传统词典的义项是否符合机用词义标注的需要?,义项底库为现代汉语词典多义词12400个;复音多义词8300个;双音多义词7278;词频在100次以上、义项在2-5个之间的双音词3774个;,3774个多义词共有义项8608个。对3774个多义词中的每个词都人工进行了义项特征的提取工作。词义标注所有工作的重点与难点都集中于下面两个问题:,一、什么样的义项义项库是否齐备?有无缺损?是否与真实语料相符?义项如何划分?根据什么标准?义项分立是否清晰?二、如何让计算机能识别义项有无形式特征?什么样的特征能为计算机所识别?,目前机用词典的义项内容一般都是借用了面向人的传统词典。这是一种取巧,也是不得已而为之的办法。由于机用词典与传统词典有着完全不同的服务对象,使用环境、识别条件、实现目标也各不相同,将传统词典简单地套用于机用词典肯定会扞格不入,面临着许多的困难。,在词义标注之路上的先行者已经关注到了机用词典的特征问题,并试图寻找解决的问题。如有的认为传统语文词典义项切分太细,应该调整义项粒度;有的主张以用法代替词义辨析(吴云芳、俞士汶,2007)。,在“第十届汉语词汇语义研讨会”(山东烟台,2009-7-25),有多篇论文都以词义标注为题:肖航的多义词义项关系对语料库词义标注的影响王宏显等的构建词汇语义关联度人工标注集王莉等基于语料库的多义动词标注方法研究乔剑敏等的面向语义标注一致性检验的汉语词义相似度计算俞士汶、贾玉祥关于隐喻的报告。都把问题的焦点指向“义项”。,问题还有:既有词义颗粒太细的问题,也有词义颗粒太粗,甚至义项缺损的问题;既有义项包含与被包含问题,还有上下位交叉覆盖的问题;有语料库有义项库无,也有语料库无义项库有,彼此阙如的问题。,三、传统词典义项存在问题分析,存在问题的类型:,(一)义项包含(二)义项交叉(三)义项边缘模糊(四)语义连贯(五)义项过近(六)义项过窄(七)义项缺损(八)罕用义,(一)义项包含,【封面】线装书指书皮里面印着书名和刻书者的名称等的一页。新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。特指新式装订的书刊印着书刊名称等的第一面。也叫封一。,【噪音】音高和音强变化混乱、听起来不谐和的声音。是由发音体不规则的振动而产生的(区别于乐音)。噪声。,【资产】财产。企业资金。资产负债表所列的一方,表示资金的运用情况。参看资产负债表。【终点】一段路程结束的地方:站。特指径赛终止的地点。【支部】某些党派、团体的基层组织。特指中国共产党的基层组织。,(二)义项交叉,【评论】批评或议论:好坏。批评或议论的文章:发表。学术界/n 当时/TIM 这些/r 公正/a 的/u 评论/vn,/w 立即/d 遭到/v 了/u 江/ALOC 青/ALOC 一/NUM 伙/q 的/u 反革命/n 围攻/vn。/w,【带领】在前带头使后面的人跟随着。领导或指挥(一群人进行集体活动)。,(三)义项边缘模糊,【歇息】休息:病刚好,还是几天吧。住宿;睡觉:洗过澡就上床了。所以/c 在/p 漫长/a 的/u 旅途/n 当中/f,/w 我们/r 常常/d 选择/v 这块/r 地方/n 落脚/v 歇息/v。/w,【亲切】亲近;亲密:他想起延安,象想起家乡一样。形容热情而关心:老师的教导。,(四)语义连续,【出门】(儿)外出:他刚,你等一会儿吧。(儿)离家远行:在外丨后时常接到家里来信。方出嫁。例:“出门三天家中遭洗劫”齐鲁晚报2007年02月08日,【摩挲】ms用手轻轻按着并一下一下地移动:衣裳。msu用手抚摩。,【同居】同在一处居住:父母死后,他和叔父。指夫妻共同生活。也指男女双方没有结婚而共同生活。大量语例为“男女双方没有结婚而共同生活”,介于两个义项的中间状态。,(五)义项过近,【冰箱】冷藏食物或药品用的器具,里面放冰块,保持低温。电冰箱的简称。【韵味】声韵所体现的意味:他的唱腔很有。情趣;趣味:这首诗的很浓古塔古树相互映衬,平添了古朴的。,【浴室】有洗澡设备的房间。澡堂。,【救灾】救济受灾的人民:放粮。消除灾害:防洪。查看/v 灾情/n,/w 慰问/v 受灾/vn 群众/n,/w 指导/vn 抗灾/vn 救灾/vn工作/vn。/w,(六)义项过窄,【出场】演员登台(表演)。运动员进运动场(参加表演或竞赛)。“有人怕闹事,开始退场,剧团的领导|出场,恳求大家安静。”(戴厚英文集流泪的淮河),(七)义项缺损,【字号】商店的名称:这家商店是什么?指商店:这是一家老这家名气大。缺“字体的大小”,【装扮】打扮:节日的广场得分外美丽。化装:他算命先生进城侦察敌情。假装:巫婆神仙欺骗人。缺“打扮出来的模样。”语例:他这个,哪里是个丁忧的样子。,【庄子】村庄:他是我们里的人。田庄。删“田庄”缺“人名,战国时期思想家,道家思想集大成者。”,(八)罕用义,造成极低频义项的有多种原因:方言义行业义临时义,【巴结】趋炎附势,极力奉承:上司。方努力;勤奋:他工作很。【安排】有条理、分先后地处理(事物);安置(人员):工作丨生活丨他当统计员。规划;改造:重新家乡的山河。,【霸道】我国古代政治哲学中指凭借武力、刑法、权势等进行统治的政策。强横不讲理;蛮横:横行丨这人真,一点理也不讲。【拔腿】迈步:他答应了一声,就跑了。抽身;脱身:他事情太多,拔不开腿。,【激发】刺激使奋发:群众的积极性。使分子、原子等由能量较低的状态变为能量较高的状态。,以上八种情况,除了“义项缺损”“罕用义”外,其他六种都表现为义项划分的困难,直接造成机器对义项认别的困难。学术界多将其概括为“义项颗粒过细”、“义项边界模糊”。,四、对传统词典义项的修改与完善,原则:1.对语言现实作全面、客观的反映。(现代汉语、通用程度较高、书面语)2.依语义高地来划分义项,突出义项特征和典型性,拉开义项之间的距离。边缘义、相邻义就近归类。(辞书学中的距离说、概括说、频率说、功能说),3.划分义项时以语义为主,语法功能为辅。词义内涵一致,词性与功能稍有区别的不另立义项。4.基于且适合于计算机的能力和工作条件,注重对义项特征形式的提取。,如“模糊”有a、v两义项 a不分明;不清楚。字迹丨神志丨认识丨概念|梦中模模糊糊觉得有人敲门。v混淆:不要了是非界限.记/v 起/v 大姐/n 叮咛/v 的话/u,/w 朋友/n 们/k 的/u 饯/nx 别/Ng,/w 不/d 自觉/a 的/u,/w 泪/n 模糊/v了/u 我/r 的/u 眼/n,/w 看/v 不/d 清/v 岸上/s 有些/r 什么/r。/w16730,【专制】(君主)独自掌握政权:政体丨帝王丨君主。凭自己的意志独断独行,操纵一切。改“凭自己的意志独断独行,操纵一切的。”增“专门制作。”,【主席】主持会议的人。某些国家、国家机关、党派或团体某一级组织的最高领导职位名称。“指主筵席者,也指筵席中的主人席位。”,【老小】老婆(多见于早期白话):娶了。【老小】老人和小孩儿,泛指家属或从老人到小孩所有的人:全村丨一家。增:“家庭中最年轻的孩子或成员。”,试以动词为例:,首先分析动词义项之间的关系:A 搭配对象不同,如“分娩、破获”;B 词中语素义不同引致词义不同,如“播种”;C 具体义与抽象义,本义与喻义,如“扭曲、培植”;D 语法功能不同(主动与使动),如“振奋、恢复”;E 语义内涵相同,色彩义不同,如“夺取、包办”;F 语文义与术语义(内涵有不同程度上的差异),如“告诉、烘托”;G 语义间无联系,同形词,如“编排”。,其次分析动词义项甄别的难易程度:,(一)较易区分的:语义距离远、形式特征显著或语境可辨识性高语文义与术语义、语文义与方言义分立,语境差异显著动名兼类,名词义指向动作行为者或行为对象、工具主动义与使动义,(二)较难区分的:语义距离近及语义包含、语义连续、语义一体语义内涵与语法功能的错杂婉辞、客套话与一般语文义的区别,形容词组的义项分析:,(一)较易区分的:凭借词性来区分;(高明)语义距离较远;(粗大)有固定搭配;语文义与术语义、古义、方言义的差别;,(二)较难区分的:语义距离近:词性与释义交叉;,【暖昧】(态度、用意)含糊;不明白:态度。(行为)不光明;不可告人:关系。例:朱蓓/PER 将信将疑/i 地/u 问/v 同学/n 讲/v 这些/r 是/v 什么/r 意思/n,/w 同学/n 暧昧/a 地/u 笑笑/v 说/v,/w 你/r 是/v 装/v 不/d 懂/v 还是/c 真/d 不/d 懂/v、/w 这种/r 倒金字塔/n 的/u 老少/n 配/v 更是/d 高/a 消费/v 呀/y。/w,【暖昧】(态度、用意)含糊;不明白:态度。(行为)不光明;不可告人:关系。修改为:模糊;不清晰:灯光。态度不明朗或行为不可告人:关系。,修改与完善,改释义856 例;改释义与例句161例;改例句248例;增义项251例;,对“义项库”WSB调查、评测、调整、修改后的反思:机用义项库的特点、功能定位;传统词典的的义项分立、释义、例句中的欠缺,机用词典义项的性质与功能,面对真实语料。凡是真实语料中有的义项理论上都要标注。处理的是“现代”、“通用”、“书面语”。方便计算机识别,且适用于大规模语料的处理。达到一般民众“识别”的需要,而不为“学习者”“辨认”的水平。,谢谢!,

    注意事项

    本文(多义词甄别的知识库建构与对传统词典义项的改造.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开