中文分词ppt课件.ppt
《中文分词ppt课件.ppt》由会员分享,可在线阅读,更多相关《中文分词ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、1,http:/http:/http:/http:/http:/http:/http:/www.by-,3.4 中文分词原理,2,【目录】,什 么 是 中 文 分 词,查 询 处 理,分 词 技 术 分 析,应 用 举 证,分 词 技 术 概 述,1,2,3,4,5,为什么要分词,英文Knowledge is power单词之间有空格,很容易进行词语的匹配。,中文的语义与字词的搭配相关,和服务必于三日之后裁制完毕王府饭店的设施和服务是一流的,杭州市长春药店杭州市长春药店,中文的语义与字词的搭配相关,后人又有人写:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,
2、我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?,唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。又一天,下起了雨,这个朋友想让他快点回去,不好意思说,于是,写了一封信,但没加标点。这个朋友的意思是:下雨天留客,天留人不留。没想到,这位聪明的穷人在信中夹了标点,意思全变了:下雨天,留客天,留人不?留。,6,什么是中文分词,中文分词定义,上海/武警/总队/医院/地址,分词就是将一句话切分成一个个单词的过程.分词的目的是更加有效、准确的关键词索引。
3、,中文分词概述,什么是分词?比如句子“内塔尼亚胡说的确实在理”,中文分词概述(Cont.),分词作用互联网绝大多数应用都需要分词,典型应用实例汉字处理:拼音输入法、手写识别、简繁转换 信息检索:Google、Baidu 内容分析:机器翻译、广告推荐、内容监控 语音处理:语音识别、语音合成,基于关键词的口碑分析,客户:某知名全国连锁餐饮品牌需求:自身及竞争对手在互联网上的口碑变化,2023/9/6,2023/9/6,11,Part 2,【接受用户查询后做了哪些事情】,查询处理,12,用户提交字符串小于3个字符,用户提交字符串多于3个字符,提交的中文查询包含英文单词,查询处理,用户查询方式,13,
4、查询处理,小于等于3个字符串,皮肤病,用户查询方式,皮肤病,14,查询处理,用户查询方式,小于等于3个中文汉字,将直接调取数据库中索引的词汇,注,15,查询处理,用户提交了不止一个查询串多于3个字串符,上海皮肤病医院,用户查询方式,上海/皮肤病/医院,上海皮肤病/医院,上海/皮肤病医院,上海皮肤病医院,16,查询处理,用户查询方式,大于等于4个中文汉字,搜索引擎会默认将所有字符串按词分隔开,分成若干子查询串,注,17,查询处理,提交的中文查询包含英文单词,用户查询方式,Iphone手机,Iphone/手机,Iphone手机,18,查询处理,用户查询方式,当提交的中文查询包含英文单词时,查询结果
5、会将英文单词优先完整展现,即使查询的单词不存在,也会当做一个字符处理,不会进行拆分,注,中文分词概述(Cont.),分词难点歧义无处不在交叉歧义(多种切分交织在一起)内塔内亚胡说的/确实/在理组合歧义(不同情况下切分不同)这个人/手上有痣我们公司人手真歧义(几种切分都可以)乒乓球拍/卖/完了乒乓球/拍卖/完了,中文分词概述(Cont.),分词难点新词层出不穷人名、地名、机构名奥巴马 表哥 房叔网名你是我的谁 旺仔小馒头公司名、产品名摩托罗拉 谷歌 爱国者 腾讯 网易 新浪诺基亚C5 尼康D700,中文分词概述(Cont.),分词难点普通词与新词互用高明表演真好(演员)/他的表演很高明汪洋到深圳
6、检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报,中文分词概述(Cont.),分词难点(需要重新处理)需求多种多样切分速度:搜索引擎VS单机版语音合成结果呈现:切分粒度要求不同:机器翻译VS搜索引擎分词重点要求不同:语音合成VS搜索引擎唯一结果VS多结果:语音合成VS搜索引擎新词敏感度不同:语音合成VS搜索引擎处理对象:书面文本(规范/非规范)VS口语文本硬件平台:嵌入式VS单机版VS服务器版,23,Part 3,【都有哪些分词技术】,分词技术概述,24,Part 3,分词技术概述,目录,基于字典的分词方法,基于统计的分词方法,基于词义分词方法,2
7、5,Part 3,基于字典的分词方法,按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,概 念,26,Part 3,基于字典的分词方法,第一页,最后一页,27,正向最大匹配法,反向最大匹配法,最短路径分词法,基于字典的分词方法,常用方法,28,正向最大匹配法,中医治白癜风,中医/治/白癜风,基于字典的分词方法,正向最大匹配法,29,反向最大匹配法,中医治白癜风,中/医治/白癜风,基于字典的分词方法,反向最大匹配法,30,最短路径分词法,中医治白癜风,中医/治白癜风,基于字典的分词方法,最短路径分词法,31,基于字典的分词方法,常用方法,采用
8、最短路径分词方法,因词典中没有“治白癜风”这个词组,所以从用户体验考虑,调取了字典中意思相近、用户搜索量大的词“治疗白癜风”、“治愈白癜风”,注,32,基于统计的分词方法,相邻的字同时出现的次数越多,就越有可能构成一个词,优点,用于系统自动识别新词,缺点,对常用词的识别精度差,例如:你的、我的、许多的、最好的、之一,常用方法,统计分词,生成式统计分词判别式统计分词,生成式分词,原理首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理两个假设前提马尔可夫假设当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1
9、个词,而与其他词无关。输出独立性假设当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。,生成式分词(Cont.),学习素材,句子,切分结果,分词知识库,分词词典,生成式分词(Cont.),分词过程实例第一步:全切分,生成式分词(Cont.),第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率P1=P(说|他)*P(的|说)*P(确实|的)*P(在理|确实)*P($End|在理)P2=P(说|他)*P(的确|说)*P(实在|的确)*P(理|实在)*P($End|理)第三步:选择概率最大的路径 为切分结果,生成式分词(Cont.),优点在训练语料规模足够大和覆盖领域足够多
10、的情况下,可以获得较高的切分正确率(=95%)不足需要很大的训练语料新词识别能力弱解码速度相对较慢,统计分词,生成式统计分词判别式统计分词,判别式分词,原理在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假设。由字构词的分词理念,将分词问题转化为判别式分类问题典型算法MaxentSVMCRFPerceptron优势能充分利用各种来源的知识需要较少的训练语料解码速度更快新词识别性能好,判别式分词(Cont.),由字构词把分词问题转化为确定句中每个字在词中位置问题每个字在词中可能的位置可以分为以下三种 词首B(日本 占领 了 东三省)词中M(游泳 比赛 菲尔普斯 独
11、占鳌头)词尾E(中国队 抢占 了 风头)分词结果形式化分词结果:毛/B新/M年/E2/B0/M0/M0/M年/E毕/B业/E/于/B东/B北/M大/M学/E还原:毛新年/2000年/毕业/于/东北大学,判别式分词(Cont.),学习素材,句子,切分结果,分词知识库,判别式分词(Cont.),特征所涉及的语言学知识列表字的上下文知识形态词知识:处理重叠词、离合词、前后缀仿词知识:2000年成语/惯用语知识普通词词典知识歧义知识新词知识/用户词典新词的全局化知识,判别式分词(Cont.),优点理论基础扎实解码速度快分词精度高新词识别能力强所需学习素材少弱点训练速度慢需要高配置的机器训练,我们即将以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 分词 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5943731.html