百度分词原理.ppt
《百度分词原理.ppt》由会员分享,可在线阅读,更多相关《百度分词原理.ppt(49页珍藏版)》请在三一办公上搜索。
1、1,2,Baidu分词原理,如何获得更多长尾词流量,3,【目录】,什 么 是 中 文 分 词,查 询 处 理,分 词 技 术 分 析,应 用 举 证,分 词 技 术 概 述,1,2,3,4,5,4,Part 1,【引言】,什么是中文分词,5,什么是中文分词,搜索引擎技术,6,什么是中文分词,搜索引擎技术,Baidu更懂中文,7,什么是中文分词,中文分词定义,上海/武警/总队/医院/地址,中文分词是指将一个汉字序列切分成一个一个单独的词。,8,Part 2,【百度接受用户查询后做了哪些事情】,查询处理,9,用户提交字符串小于3个字符,用户提交字符串多于3个字符,提交的中文查询包含英文单词,查询处
2、理,用户查询方式,10,查询处理,小于等于3个字符串,皮肤病,用户查询方式,皮肤病,11,查询处理,用户查询方式,小于等于3个中文汉字,将直接调取数据库中索引的词汇,注,12,查询处理,用户提交了不止一个查询串多于3个字串符,上海皮肤病医院,用户查询方式,上海/皮肤病/医院,上海皮肤病/医院,上海/皮肤病医院,上海皮肤病医院,13,查询处理,用户查询方式,大于等于4个中文汉字,搜索引擎会默认将所有字符串按词分隔开,分成若干子查询串,注,14,查询处理,提交的中文查询包含英文单词,用户查询方式,Iphone手机,Iphone/手机,Iphone手机,15,查询处理,用户查询方式,当提交的中文查询
3、包含英文单词时,查询结果会将英文单词优先完整展现,即使查询的单词不存在,也会当做一个字符处理,不会进行拆分,注,16,Part 3,【都有哪些分词技术】,分词技术概述,17,Part 3,分词技术概述,目录,基于字符串匹配的分词方法,基于统计的分词方法,基于词义分词方法,18,Part 3,基于字串符匹配的分词方法,按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,概 念,19,Part 3,基于字串符匹配的分词方法,第一页,第二页,20,正向最大匹配法,反向最大匹配法,最短路径分词法,基于字符串匹配的分词方法,常用方法,21,正向最大匹配
4、法,中医治白癜风,中医/治/白癜风,基于字符串匹配的分词方法,正向最大匹配法,22,反向最大匹配法,中医治白癜风,中/医治/白癜风,基于字符串匹配的分词方法,反向最大匹配法,23,最短路径分词法,中医治疗白癜风,中医/治疗白癜风,基于字符串匹配的分词方法,最短路径分词法,24,基于字符串匹配的分词方法,常用方法,采用最短路径分词方法,因词典中没有“治白癜风”这个词组,所以从用户体验考虑,调取了字典中意思相近、用户搜索量大的词“治疗白癜风”、“治愈白癜风”,注,25,基于统计的分词方法,相邻的字同时出现的次数越多,就越有可能构成一个词,优点,用于系统自动识别新词,缺点,对常用词的识别精度差,例如
5、:你的、我的、许多的、最好的、之一,常用方法,26,概 念,尚不成熟,试验阶段,通过让计算机模拟人对句子的理解,达到识别词的效果,基于理解的分词方法,常用方法,27,Part 4,【实例举证】,分词技术分析,28,分词技术分析,百度匹配结果:,皮肤/医院,29,分词技术分析,正向最大匹配:,解小东/北京/华/烟云,反向最大匹配:,解/小/东北/京华烟云,百度实际匹配结果:,解小东/北/京华烟云,解小东/北京,30,分词技术分析,正向最大匹配:,相同/仁/医院/墙,正向最大匹配:,反向最大匹配:,相/同仁/医/院墙,百度实际匹配结果:,相/同仁医院/墙,31,结 论,分词技术分析,百度分词采取了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 百度 分词 原理
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-4521125.html