Solr55搜索引擎之分词原理说明.docx
《Solr55搜索引擎之分词原理说明.docx》由会员分享,可在线阅读,更多相关《Solr55搜索引擎之分词原理说明.docx(12页珍藏版)》请在三一办公上搜索。
1、Solr55搜索引擎之分词原理说明Solr5.5搜索引擎之分词原理说明 1 中文分词 1.1 概念 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文时以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”,“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”的分词结果是:“我是一个学生”。摘自http:/www.williamlong.info/archives/333.ht
2、ml 1.2 应用 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,很多西文的处理方法对中文不能直接采用,就是因为中文必须有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也要解决中文分词问题。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过
3、长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 2搜索引擎和中文分词 2.1 搜索引擎的工作原理 摘自: 搜索引擎为什么能快速检索到自己查询的关键字呢?实际上得益于它的数据存储机制“倒排索引”,这里用一个例子来大体说明什么是倒排索引。 假设我有10篇文章,它们可能论述了相同或不同的主题。如果我想看看哪篇文章中含有“中文分词”这个词语,我可以循环遍历每篇文章,看看他的内容中有没有含有“中文分词”这个词语,然后把含有目标词语的文章返回。很显然,我需要打开10篇文章,并且从头到尾的遍历每篇文章,看能否匹配到“中文分词”,这样的效率是很低的,
4、对于毫秒级的搜索引擎来说是绝对不能接受的。 所以我给每篇文章做个“目录”,事先找到含有“中文分词”的文章,假设文章1,3,5,7含有这个词语,文章2,4,6,7含有“搜索引擎”,我建立一个对应关系表: 词语 “中文分词” “搜索引擎” 于是当我要检索“中文分词”这个词语的时候,我不再打开每篇文章去匹配,而是直接在对应关系表看一下“中文分词”对应着文章1,3,5,7。结果是文章1,3,5,7中含有“中文分词”,同样检索“搜索引擎”,直接返回的结果是2,4,6,7。如果我要同时检索“中文分词”和“搜索引擎”,结果是和取交集。结果是文章7同时包含“中文分词”和“搜索引擎”。这个对应关系表就是所谓的倒
5、排索引。当然倒排索引可能包含的信息更为丰富,比如不仅包含词语在哪一篇文章,同时还包含了在这篇文章的哪个位置等。生产环境中需要把所有文章都建立一个倒排索引。 创建倒排索引的前提是:搜索引擎怎么认识句子中哪些是词语呢?它不知道“中文分词”是一个词语。这个工作由中文分词器来完成,分词器在创建索引过程和用户查询过程都会被使用到。 文章编号 1,3,5,7 2,4,6,7 2.2 搜索引擎和数据库区别 为什么搜索引擎无法被数据库所替代的原因主要有两点:一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好理解,每当数据库的单个表大了,就是一件头疼的事,还
6、有在较大数据量级的情况下,你让数据库去做模糊查询,那也是一件比较吃力的事,设计上就应当避免。关于第二点,搜索引擎如何理解用户,肯定不是简单的靠匹配,这里面可以加入很多的处理,甚至加入各种自然语言处理的高级技术,而比较通用且基本的方法就是靠分词器来完成,而且这是一种比较简单而且高效的处理方法。 3中文分词类型 分词技术现今非常成熟了,分为3中技术 3.1 基于词典的字符串匹配的分词方法 按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。范例:检索“山东经济学院”时,首先检查“山”是否在词典中,再检查“山东”是否在词典中,然后查“山东经
7、济”是否在词典中,以此类推。 按照扫描方向不同,串匹配又分为正向匹配和逆向匹配; 按照不同长度优先匹配的情况,可分为最长匹配和最短匹配; 按照是否与词性标注过程相结合,可分为单纯分词和分词与标注相结合的一体化方法; 常见的匹配方法包括:正向最大匹配、逆向最大匹配、最短路径最大匹配 3.1.1 正向最大匹配 假设词典里包含以下词:“研究”、“研究生”、“生命”、“起源” 对“研究生命起源”进行分词。 子匹配次数 1 2 3 4 5 备选词 词典是否存在 无 有 有 无 无 分词结果 长度最大分析匹配匹配结果 结果 研究生 “研究生_命_起源” 明显语义错误。 说明本方法在用于“研究生命起源”时有
8、误差。 匹配起点选择次数 1 研 研究 研究生 研究生命 研究生命起 备注:假设一个词语最大不超过5个字,停止匹配 研究 研究生 2 1 命 命起 命起源 备注:已延长到句子结尾,停止匹配。 起 起源 无 命 2 3 无 无 3 1 2 无 有 起源 起源 3.1.1 逆向最大匹配 假设词典里包含以下词:“研究”、“研究生”、“生命”、“起源” 对“研究生命起源”进行分词。 子匹配次数 1 2 备选词 词典是否存在 无 有 分词结果 长度最大分析匹配匹配结果 结果 起源 “研究_生命_起源” 匹配起点选择次数 1 源 起源 起源 3 4 5 命起源 生命起源 究生命起源 备注:假设一个词语最大
9、不超过5个字,停止匹配 无 无 无 2 1 2 3 4 命 生命 究生命 研究生命 究 研究 无 有 无 无 无 有 生命 研究 生命 明显语义正确。 说明本方法在用于“研究生命起源”时无误差。 3 1 2 研究 3.2 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Solr55 搜索引擎 分词 原理 说明
链接地址:https://www.31ppt.com/p-3165993.html