面向丝绸领域的垂直搜索关键算法研究毕业答辩.ppt
《面向丝绸领域的垂直搜索关键算法研究毕业答辩.ppt》由会员分享,可在线阅读,更多相关《面向丝绸领域的垂直搜索关键算法研究毕业答辩.ppt(32页珍藏版)》请在三一办公上搜索。
1、面向丝绸领域的垂直搜索关键算法研究,答辩人:导 师:,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,2/32,内容概要,一、研究意义二、研究现状三、研究内容四、总结展望,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,3/32,内容概要,一、研究意义二、研究现状三、研究内容四、总结展望,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,4/32,一、研究意义,互联网的信息量呈爆炸趋势增长,数量的增加带来的是搜索服务品质的下降,并且查询的结果里存在大量的重复信息和垃圾信息,用户的查询效率非常低。网络的发展客观上就需要一批能够满足某一特定领域、特定人群或者说是某一特定需求的
2、网站。,几十万,几百万,几千万,几十亿,网页信息量,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,5/32,一、研究意义(续),丝绸作为面料行业的一个种类,随着面料行业的科技含量逐步提高,企业的发展与网络的联系也越来越紧密。企业可以通过网络获得本行业的原料、加工、产品的最新信息,产业链上各个环节动态信息,可以发布自身的信息以获得更多的商机,可以通过网络平台进行交易。如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,6/32,内容概要,一、研究意义二、研究现状三、研究内容四、总结展望
3、,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,7/32,二、研究现状,国外现状:国外垂直搜索获得了1400万美元的融资,强力刺激了广告主对垂直搜索广告的认可和期待。垂直搜索引擎广告将会在未来几年借助垂直搜索引擎的发展迎来更大的发展空间和机遇。美国垂直搜索引擎的发展已经充分说明了这种经营模式的正确。M公司通过发布有关疾病和治疗的详细内容,每月赢得高达2500万次的点击,有260万患者和100万医生浏览。由此可见,专业化,垂直化已成为未来搜索引擎发展的一个潮流和方向。国内现状与美国方兴未艾的垂直搜索引擎发展相比,国内明显还处于落后状态,国内众多网站虽然在自己的发展过程中做了许多有益的探
4、索,但在内容垂直化、服务集中化、访问经常化方面还有很长的路要走。,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,8/32,内容概要,一、研究意义二、研究现状三、研究内容四、特色创新五、总结展望,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,9/32,3.1 面向丝绸领域垂直搜索引擎的总体设计 功能需求分析,页面权值计算功能 网页信息的自动采集 信息的自动提取,存储爬行的网页URL列表存储各个网页的结构信息存储不同URL的权值存储产品相关信息,提供信息检索功能以页面的形式返回给用户,信息的自动采集,信息数据库的管理,信息的检索与显示,23.2.22,面向丝绸领域的垂直搜索引擎
5、关键算法研究,10/32,3.1 面向丝绸领域垂直搜索引擎的总体设计 系统的总体框架图,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,11/32,3.1面向丝绸领域垂直搜索引擎的总体设计 系统的关键技术分析,系统的效率,由于垂直搜索引擎是一个复杂的综合系统,各个子系统之间是相互协调,紧密相关。所以在设计时需要全面考虑,任何一个环节的效率都会影响到整个系统的效率。,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,12/32,3.2 面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现,用户首先指定与丝绸产品信息相关的词表,利用元搜索引擎来查询与这些词相关的种子网址,用户
6、也可以直接指定种子网址列表,得到需要搜索的URL列表后,利用spider去采集相关网页,经过去重后存入页面存储器,再经过网页分析和结构化信息的抽取后,把丝绸信息相关的内容存入数据库,供用户查询。,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,13/32,3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索算法的具体实现(续),利用元搜索引擎来限定搜索范围的流程搜索函数部分相关代码:String Search(String str,String URL)/返回一个保存url地址字符串的字符串数组URL address=new URL(url);/建立http连接String host=
7、url.getHost();/获取主机号 Int port=url.getport();/获取端口号 Socket socket=new Socket(host,port);/实例化socketInputStream in=socket.getInputstream();/获取输入流PrintWriter out=new PrintWriter(socket.getOutputStream();/输出流Out.Print(“POST”+“查询式”+);/向商用引擎提交查询式,23.2.22,面向丝绸领域的垂直搜索引擎关键算法研究,14/32,3.2面向丝绸领域的垂直搜索引擎的具体实现 自动搜索
8、算法的具体实现(续),为了提高搜索效率,在上述基础上我们编写了一个可以同时采用多个商用引擎的java函数。相关代码如下:Void MutiSearch(String str,String engaddress)/str为用户的查询关键字;engaddress 为商用引擎地址 String temp=;Temp=Search(str,engaddress);For(int i=0;i temp.length();j+)Boolean isin=false;For(int j=0;j list.length();j+)If(tempi.equals(listj)/判断是否在list中已经存在isi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 丝绸 领域 垂直 搜索 关键 算法 研究 毕业 答辩

链接地址:https://www.31ppt.com/p-2672112.html