《汉语分词》PPT课件.ppt
《《汉语分词》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《汉语分词》PPT课件.ppt(46页珍藏版)》请在三一办公上搜索。
1、汉语分词,1,汉语分词,汉语分词,2,主要内容,分词歧义分词规范主要分词方法生词识别,汉语分词,3,分词的提出和定义,汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词,汉语分词,4,分词的意义,正确的机器自动分词是正确的中文信息处理的基础文本检索 和服|务|于三日后裁制完毕,并呈送将军府中。王府饭店的设施|和|服务|是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。文语转换 他们是来|查|金泰|撞人那
2、件事的。(“查”读音为cha)行侠仗义的|查金泰|远近闻名。(“查”读音为zha),汉语分词,5,分词面临的主要难题,如何面向大规模开放应用是汉语分词研究亟待解决的主要问题如何识别未登录词如何低廉地获取语言学知识词语边界歧义处理实时性应用中的效率问题,汉语分词,6,分词歧义,交集型切分歧义组合型切分歧义,汉语分词,7,交集型切分歧义,汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。例“结合成分子”结合|成 分|子|结合|成|分子|结|合成|分子|例“美国会通过对台售武法案”例“乒乓球拍卖完了”,汉语分词,8,组合型切分歧义,汉字
3、串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词例组合型切分歧义:“起身”他站|起|身|来。他明天|起身|去北京。,汉语分词,9,“真歧义”和“伪歧义”,真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、“本/地区”等,汉语分词,10,未登录词,虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词分类:专有名词:中文人名、地名
4、、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究”派生词:“一次性用品”与领域相关的术语:“互联网”,汉语分词,11,分词规范,词是自然语言的一种客观存在汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理信息处理用现代汉语分词规范及自动分词方法:结合紧密、使用频繁,汉语分词,12,具体的分词标准实例,二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素四字成语一律为分词单位:胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由
5、此可见 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分:时间/就/是/生命/失败/是/成功/之/母,汉语分词,13,具体的分词标准实例,结合紧密、使用稳定的词组则不予切分:不管三七二十一 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:妇女能顶/半边天/他真小气,象个/铁公鸡/略语一律为分词单位:科技 奥运会 工农业 分词单位加形成儿化音的“儿”:花儿 悄悄儿 玩儿,汉语分词,14,具体的分词标准实例,阿拉伯数字等,仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 不同的语言环境中的同形异构现象,按照具体语言环境
6、的语义进行切分:把/手/抬起来 这个/把手/是木制的,汉语分词,15,常见的动词分词规范,动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说 看/不/看 相信/不/相信 动宾结构的词或结合紧密、使用稳定的:开会 跳舞 解决/吃饭/问题 孩子该/念书/了结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼 学/滑冰 写/信,汉语分词,16,常见的动词分词规范,动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打
7、倒 提高 加长 做好“2十1,1”或“1十2”结构的动补词组一律切分:整理/好 说/清楚 解释/清楚 打/得/倒 提/不/高 偏正结构的词,以及结合紧密的词不予切分:胡闹 瞎说 死记,汉语分词,17,常见的动词分词规范,复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来动词与趋向动词结合的词组一律切分:寄/来 跑/出去多字动词无连词并列,一律切分:调查/研究 宣传/鼓动,汉语分词,18,主要的分词方法,简单的模式匹配:正向最大匹配、逆向最大匹配法、双向匹配法基于规则的方法:最少分词算法基于统计的方法:统计语言模型分词、串频统计和词形匹配相结合的汉语自动分
8、词、无词典分词,汉语分词,19,正向最大匹配分词(Forward Maximum Matching method,FMM),基本思想:设自动分词词典中最长词条所含汉字个数为I;取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出来,转6;如果词典中找不到这样的一个I字词,则匹配失败;匹配字段去掉最后一个汉字,I-;重复2-4,直至切分成功为止;I重新赋初值,转2,直到切分出所有词为止。,汉语分词,20,分析,“市场/中国/有/企业/才能/发展/”对交叉歧义和组合歧义没有什么好的解决办法错误切分率为1169往往不单独使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 汉语分词 汉语 分词 PPT 课件
链接地址:https://www.31ppt.com/p-5541355.html