搜索引擎开发实践.ppt
《搜索引擎开发实践.ppt》由会员分享,可在线阅读,更多相关《搜索引擎开发实践.ppt(42页珍藏版)》请在三一办公上搜索。
1、搜索引擎开发实践第一讲 搜索引擎简介,主讲人:罗刚,概 述,前导知识搜索引擎的查询语法搜索引擎的总体架构用户界面布局网站搜索的常用功能,前导知识,Core Java Java技术手册HashMapFileBitSet编译原理Modern compiler implementation in Java词法分析,有限状态机语法分析概率论应用随机过程:概率模型导论马尔可夫模型贝叶斯公式数据结构 Java程序设计:一种跨学科的方法动态规划,第3页,准备开发环境,JDK1.6增加虚拟内存到800M-Xmx800mEclipse 支持中文的语言包LuceneResinhttp:/download,准备开发
2、环境(续),TortoiseSVNhttp:/Anthttp:/MavenLinuxCentOS()SecureCRT登录,词法分析(Lexical analysis),例如分析输入的用户查询串,输出该字符串中出现的所有的合法的单词(Token)。例如对查询串“NBA AND 比赛”的词法分析:Token NBA AND 比赛Type TERM AND TERMLucene中采用JavaCC实现词法分析。JavaCC有个Eclipse插件(/),词法分析的原理,Tokens,生成词法分析器,词法分析器如何工作?把用户输入定义的Token转换成为正规文法等价的形式把正规文法转换成NFA把NFA转
3、换成DFA生成代码模拟DFA,语法分析,+DisNey WOrld,文本解析,BooleanQuery,ModifierQNREQ,FieldQN(content,WOrld),FieldQN(content,DisNey),缺省列:content,词法分析-JavaCC,JavaCC(Java Compiler Compiler)可以同时完成对文本的词法分析和语法分析的工作。,StandardSyntaxParser.jj,Token.javaStandardSyntaxParserConstants.javaStandardSyntaxParser.java,JavaCC,jj文件的结构,
4、一个JavaCC文件由三部分组成:Options类的声明词法分析的声明(tokens),和语法分析的声明options STATIC=false;PARSER_BEGIN(StandardSyntaxParser)PARSER_END(StandardSyntaxParser)/*Token Definitions*/,选项(options),STATIC是一个布尔选项,缺省值是真。如果是真,在生成出的解析器和token管理器中,所有的方法和类变量都声明成静态的。这样仅仅允许一个解析对象存在,但是查询分析器应该有很多个,所以这个值应该设成假。,词法分析-JavaCC,lucene-3.0.0c
5、ontribqueryparsersrcjavaorgapachelucenequeryParserstandardparserStandardSyntaxParser.jjparse方法定义了对用户查询串的词法分析功能,并完成初步的语法分析public QueryNode parse(CharSequence query,CharSequence field)QueryNode对象包含了分析出来的语法树,概率,一本词典,从词典翻页看到的词是一个动词的概率?如何计算:全部的词=对词典中所有的词计数#得到一个动词的方法:是动词的单词数量如果一个词典有50,000项,10,000 是动词,则P(V
6、)=10000/50000=1/5=0.2,计算P(W),如何计算联合概率:P(“the”,”other”,”day”,”I”,”was”,”walking”,”along”,”and”,”saw”,”a”,”lizard”)构想:根据概率的链规则,概率的链规则,根据条件概率的定义重写:更通用的公式P(A,B,C,D)=P(A)P(B|A)P(C|A,B)P(D|A,B,C)一般化 P(x1,x2,x3,xn)=P(x1)P(x2|x1)P(x3|x1,x2)P(xn|x1xn-1),链规则应用到句子中的单词的联合概率,P(“the big red dog was”)=P(the)*P(big
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 开发 实践
链接地址:https://www.31ppt.com/p-5980765.html