网站站内搜索引擎课程设计报告一.ppt
《网站站内搜索引擎课程设计报告一.ppt》由会员分享,可在线阅读,更多相关《网站站内搜索引擎课程设计报告一.ppt(18页珍藏版)》请在三一办公上搜索。
1、网站站内搜索引擎课程设计报告一需求分析报告1.封面及个人贡献的分解,a)i.ii.iii.iv.,第一页课程名称高级软件工程项目名称中科院网站站内搜索引擎提交日期项目组成员列表,小组成员均为软件所学生,学号200928015029038200928015029047200928015029041200928015029012200928015029046200928015029017,姓名许利杰赵占平张灿高蕾赵鑫李奇原,手机号152109096471500127025415210631362152109021771521090217015210909712,邮箱,i.,b),第二页个人贡献分解
2、表,成员,小组成员姓名,职责,许利杰,赵占平,张灿,赵鑫,高蕾,李奇原,2:项目管理(10),80%,10%,10%,3:用户需求说明(7)4:术语表(3),50%,100%,25%,25%,5:功能需求详述(40),20%,20%,20%,20%,20%,6:非功能需求(6),30%,70%,7:领域分析(20)8:用户界面设计(10),70%,20%10%,30%,30%,20%20%,9:工作计划(3)10:参考文献(1),100%,100%,1.,2.,3.,4.,5.,6.,7.,8.,9.,10.,2.目录,目录,网站站内搜索引擎课程设计报告一.1需求分析报告.1,封面及个人贡献的
3、分解.1目录.3用户需求说明.4术语表.5功能需求详述.5非功能需求.13领域分析.14用户界面设计.17工作计划.17参考文献.18,。,。,3.用户需求说明,a)项目背景,目前高校网站或者一般网站中使用的站内搜索引擎基本有三大类:一种是使用 Google,的站内搜索引擎服务(由 Google Search Appliance 驱动)(如:清华大学、上海交大、浙江,大学等等)。一种是使用原始的文件索引技术,类似于在 word 中查找关键字的方法对文档进行搜索,因此只能搜索一些办公通知(如:中科院研究生院)。最后一种是只能搜索校内各个下属网站主页(如:武汉大学,相当于查询一个主页名字和网站地址
4、的映射表)后两种不能称之为真正意义上的站内搜索引擎。,比较特殊的是北京大学的站内搜索使用了自己开发的天网搜索引擎,属于真正意义上的,站内搜索引擎。,b)项目目的,针对中科院旗下网站,部署一个类似 Google 站内搜索和北大天网搜索引擎的站内式搜索引擎。用户通过输入关键字能够检索到内容相关的站内网页及图片、文档等多种文件,并能够对结果进行排序、分类和整理,最终通过浏览器将结果返回给用户。,c)已有的解决方法,从目前调查结果来看,北大天网搜索引擎返回结果中不能直接提供 MS word、pdf 等文件的直接链接,Google 站内搜索可以(通过点击返回的结果标题,可以直接下载 doc、pdf等文件
5、)。但 Google 站内搜索没有提供网页快照功能,天网提供了。,其他高校如华中科技大学的站内搜索也能够对站内的网页进行搜索,但是也只能处理网,页,不能处理其他类型的文件。中科院以后的站内搜索也是同样的情况。,除了 Google 的站内搜索服务,目前另一位比较优秀的站内搜索引擎是基于开源检索工具改造和搭建的。如:美国俄勒冈州立大学的站内搜索引擎(http:/search.oregonstate.edu/)。,不仅能够对校内网页进行索引,而且能够对内容进行分类检索,支持多类型文件的检索。,d)具体用户需求,首先,站内搜索引擎是一个大型网站提供的一种网络服务,是为了方便用户快速检索到,自己想要访问
6、的网页或文件。因此在网站首页应包含简洁、醒目的搜索框,用户直接在搜索框中键入查询关键字,点击确认或回车后,网站应能够快速响应请求,并将符合用户搜索的结果通过网页形式反馈给用户。其次,用户希望返回结果中,除了相应结果的链接,还要有对网页的简单摘要,如商业搜索引擎中一般有 3 到 4 行对搜索结果的描述,便于用户鉴别是否是自己想要访问的链接。另外,返回的结果应该按照查询关键词的相关度排序,越符合查询要求的应该放的越靠前。第一页显示 10 条左右的查询结果,如果过多的查询结果放在同一页,会令用户感觉复杂繁多。如果查询结果多于 10 条,可以让用户通过点击下一页等方式来访问。再次,站内搜索引擎要能够定
7、期自动更新,因为不断地有新的网页或者文件加入到网站中,定期更新搜索结果,能够保证用户能够及时地通过站内搜索引擎访问到新加入的资源。最好还能够提供网页快照功能,便于用户快速访问已经关闭或者暂时不能访问的网页。4.术语表爬虫:将web网页自动下载到本地的网络程序。URL:统一资源定位符(英语Uniform Resource Locator的缩写)也被称为网页地址,是因特网上标准的资源的地址。分词:将一段文字分割成一组符合日常用语的词语。类别词:对网页分类起作用的关键词。布尔查询:说明各个关键词是否要在查询结果中出现,“+”表示出现,“-”表示不出现。5.功能需求详述a)利益相关者(stakehol
8、ders)需要提供站内搜索引擎服务的网站所有者b)角色(Actors)和目标(Goals)在本系统中角色主要是一般用户(通过 web 来使用站内搜索服务),类型是参与者,主要参与系统功能需求描述和系统测试。另外一个角色是网站管理员,管理员负责将开发好的系统部署到网站上,配置搜索引擎所需配置文件,并监控和维护系统运行。c)用例(Use Cases),i.,简要描述用户输入关键词查询:用户可以按照不同的格式来输入关键词,不同的格式代表对搜索结果的不同要求,,。,这样可以筛选出用户想要的搜索结果。管理员配置搜索引擎配置文件:管理员通过配置包含搜索引擎运行所需参数的配置文件来控制搜索引擎的相关功能。管
9、理员部署和更改索引文件:管理员需要部署搜索引擎的 web 应用到 web 容器上,从而使用户可以通过 web 方式来访问搜索引擎。管理员也可以更改索引文件的路径,从来让搜索引擎搜索不同的索引文件。用户分类检索:针对不同的用户需求,提供不同的标签,用户可以选择搜索网页、搜索院内人员信息、搜索招生或者科研信息,这样可以使结果更具有领域相关性和准确性。,ii.,完整描述,用户输入关键词查询:1、普通多关键词查询:只输入关键词,关键词之间不用空格隔开,表示采用系统默认分词方式分隔关键词;用空格隔开表示按照用户指定的分词方式分词。2、精确查询:输入带有引号的关键词,如“Chinese Academy o
10、f Sciences”,表示精确匹配引号内的关键词,引号内的关键词不被分词。3、大小写不敏感查询:输入的英文单词不区分大小写,如“Beijing”等同于“beijing”4、布尔查询:在关键词前面加上“+”表示出现搜索结果要出现关键词,加上“-”表示不出现关键词管理员配置搜索引擎配置文件:1、url 过滤策略设置:通过定义网络爬虫抓取网页的 url 过滤策略来限制爬取网页的类型,其语法与正则表达式大致相同,以”+”表示接受后面定义的地址类型,”-”表示拒绝。如果只想让爬虫抓取 url 中含有 的网页,可如下定义:+http:/.*起始 url 设置:起始 url 地址是让爬虫从该地址开始抓取网
11、页并处理信息。如可从以下地址开始抓取:http:/爬取设置:设定爬虫网络延时的线程等待时间、爬虫抓取文档内容长度的最大值和自动爬取间隔时间等配置信息。4、索引设置:设定每个文档的最大字段数和设定合并因子等配置信息。管理员部署和更改索引文件:,iii.,1、部署引擎:管理员把搜索引擎的 Web 应用部署到 Web 容器下,以使最终用户可以通过,Web 方式访问。,2、修改引擎:管理员可以替换搜索引擎所需的索引文件,在不改变上层应用的情况下,更,改底层的索引文件相当于更改搜索引擎的查询内容。,用户分类检索(根据时间安排,如果时间充足,可以考虑实现),搜索引擎提供分类检索功能,其中有首页有 4 个标
12、签,分别为:网页、人员、招生、科,研。不同的标签提供更为详细和准确的搜索结果。,1、网页检索:与“用户输入关键词查询”的用例一致。,2、人员检索:检索中科院内相关人员介绍和与该人员相关的网页信息。,3、招生检索:检索最新和历史招生信息,招生信息来自中科院研究生院的各个院系和中科,院所属的各个研究所。,4、科研检索:主要检索最新的科研进展和状态新闻,以及目前承担的项目和发表的论文等,信息。,用例图(Use Case Diagram),普通多关键词查询精确关键词查询,关键词查询,一般用户大小写不敏感查询布尔查询图 1 用户查询用例图,起始URL设置,配置搜索引擎,URL过滤规则设置,管理员,爬虫相
13、关设置,索引策略设置图 2 管理员配置搜索引擎配置文件图部署搜索引擎管理员修改索引文件图 3 管理员部署和更改索引文件图,检索人员信息建立类别词典,管理员,检索招生信息,网页分类,获取网页特征信息检索科研信息图 4 用户分类检索图d)系统序列图(System Sequence Diagrams)用户分类检索,webInputTextArea,wordAnalyzer,Indexseacher,index,一般用户keywordwordAnalyze()wordSearch()indexSearch()docIndex(),Result,sortedDocument图 5 用户查询序列图,管理员
14、配置搜索引擎配置文件,configureFile,crawler,startURL,URLfilter,indexConfig,管理员configureFileswhichFilespecifyFileconfigureCrawler()configureURL()configureURLStrategy()configureIndex()done图 6 管理员配置搜索引擎配置文件序列图,管理员部署和更改索引文件,管理员,deploySearcher,index,alt,deploy,specifyIndexPath,deploy()donemodifyIndexmodifyIndexAttr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网站 站内搜索 引擎 课程设计 报告

链接地址:https://www.31ppt.com/p-2669884.html