网络信息检索与利用.ppt
《网络信息检索与利用.ppt》由会员分享,可在线阅读,更多相关《网络信息检索与利用.ppt(72页珍藏版)》请在三一办公上搜索。
1、,打开网络知识宝库钥匙,网络信息检索与利用,第三章 搜索引擎(search engines)3.1 搜索引擎的含义及类型(p36)3.2 搜索引擎的工作原理3.3 搜索引擎的检索功能3.4 常用搜索引擎及其使用 3.4.1 西文常用搜索引擎及其使用 3.4.2 中文常用搜索引擎及其使用 3.4.3 专门信息检索工具,第三章 网络搜索引擎(search engines)3.1 搜索引擎的含义及类型(p37)搜索引擎含义:是对网上的信息资源进行搜集整理、然后提供用户查询的系统,它包括:信息搜集、信息整理、用户检索(查询)。搜索引擎是一种利用网络自动搜索技术,对网络信息资源进行标引、组织、检索网络信
2、息资源的检索工具。类型:1)按搜索引擎的工作原理分:(1)纯技术型的全文检索搜索引擎,如:google、AltaVista等;(2)分类目录型搜索引擎,如:yahoo等。2)按搜索引擎的操作方式分:独立搜索引擎 多元搜索引擎 网络搜索软件,多元搜索引擎与源搜索引擎的主要区别在于:并不像全文搜索引擎那样拥有自己的索引数据库,而是当用户提交搜索申请时,通过对多个独立搜索引擎的整合和调用,然后按照多元搜索引擎自己设定的规则将搜索结果进行取舍和排序并反馈给用户。美国专业搜索引擎咨询网站评出的2003年最佳多元搜索引擎如下:,多元搜索引擎:是将多个独立的搜索引擎集成在一起,并提供一个统一的检索界面,并且
3、将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。,(1)Dogpile(http:/),(2)Vivisimo(http:/),3.2 搜索引擎的工作原理:网络自动索引软件称为Robots,Spiders或Worm等,实际上它们都是一种自动跟踪、浏览网页并进行索引的智能软件。国内一般译为“网络机器人”,此类软件一般由下列几部分构成:采集器(Gartherer)、建库器(Broker)、索引查询器(Index/Search Subsystem)、备份复制器(Replicator)、目标缓存器(Object Cache)、目标管理器(Object Sys
4、tem)等。其工作原理主要概括为以下过程:,(3)M(http:/),1)信息的采集和存储:搜索引擎一般采用自动方式收集和存储网上信息资源,即运用“网络机器人”自动运行的软件,追寻万维网上的链接行进,找到web页并将它们收集和发现到的web页面信息经网络传输,存入到搜索引擎的临时数据库中。2)信息索引的建立:搜索引擎负责对收集到的网页信息进行分析,从中提取有检索价值的信息内容网页中的关键词,并对关键词进行数值计算。该模块也就是建立索引查询系统,它是该数据库系统建立的配套子系统,决定索引布尔逻辑操作、表达式匹配,结构化与非结构化文件处理、词语匹配、匹配相关性排序等。建立信息索引就是创建文挡信息的
5、特征记录(题名、责任者、关键词、期刊名称等),使用户能够快速地检索到所需信息。,建立索引需要进行以下处理:yahoo(1)信息语词切分和语词词法分析;(2)进行词性标注及相关的自然语言处理;(3)建立检索工具索引(题名、责任者、主题、刊名等索引),3)检索界面的建立:搜索引擎检索界面接受用户提交的查询请求(查询内容及逻辑关系),搜索引擎将根据用户所输入的关键词在其索引中查找,并寻找出匹配的web页地址。检索界面是连接用户与搜索引擎、相关web页地址的中介,需要有较强的易用性。如:Google 的检索界面。,4)检索结果的相关性处理:搜索引擎可按文件相关度进行排序,最相关的文件一般排在前面,以便
6、于用户快速查询到相关信息。如“百度”检索网页中“google简介”,搜索引擎确定相关性的方法:概率方法是根据关键词在文中出现的频率多少来判定文件的相关性。位置方法是根据关键词在文中出现的位置来判定文件的相关性。关键词出现的越靠前,文件的相关度就越高。摘要方法是指搜索引擎自动地为每个文件生成一份摘要,让用户自己选择、判断结果的相关性。,分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。(几种方法并用)如:利用“yahoo”点击“知识”获取到知识分类:,3.3 搜索引擎的检索功能(p38)大多数搜索引擎都提供以下检索功能:布尔逻辑检索、模糊检索、截词检索、限制检索、结
7、果过滤、语句检索、智能化检索等等。(结合第二章网络信息检索技术讲述),1)布尔逻辑运算(1)逻辑“与”:假设A和B是两个检索词,则A*B表示 A与B必须同时存在。检索出的文献少。,如:利用“百度”检索“教育心理学”相关信息 检索词:教育学 心理学 教育心理学 检索式:教育学 and 心理学 检索式:教育心理学 检索结果分别为:177,000篇;872,000篇,(2)逻辑“或”:A或B中任何一个词存在都可以,A+B表示A或B中任何一个词存在都可以(当然也包括 A和B 同时存在)。“逻辑或”表达式,有助于提高查全率;检索出的文献较多。,如:检索“教育学和心理学”均相关的论文 检索词:教育学;心理
8、学;教育心理学 检索式:教育学or心理学or教育心理学 检索式:教育学or心理学 检索结果分别为:9,520篇;43,400篇;,(3)逻辑“非”:表示A必须存在,但不能有B。“逻辑非”表达式A-B,主要用于排除那些与检索意图无关的文献;检出文献信息量较少。,采用逻辑“与”、逻辑“非”是缩小检索范围提高专指度、提高查准率;采用逻辑“或”扩大检索范围,提高查全率。,如:检索“教育心理学中排除与心理学相关的信息检索词:教育心理学;心理学检索式:教育心理学not心理学检索结果分别为:9,650篇;,2)截词检索:是为提高文献检索效率而发展的一种检索技术,是利用检索词的词干或不完整的词进行检索。分为后
9、截词检索(前方一致),前截词检索(后方一致),中截词检索(前后方一致),前后截词检索(中间一致)四种基本类型。截词符号的使用,可以减少检索词的输入量,简化检索步骤,既能提高查全率,又能节省机时,提高检索效率。,(1)后截断 如:motor?(马达)可以同时检索出含有motor和motors的文献。这可以避免因检索词的单复数变化而造成的漏检。,(2)前截断 前截断是将截词符号置于检索词左边,表示其左边可以有若干个字符的变化。如:?computer可以同时查出含有computer、minicomputer(小型计算机)文献。(3)前后同时截断 将截词符号置于检索词两侧,允许词干两侧有有限个或无限个
10、字符的变化。如:?wave?可以检索出有关wave(波)、waves、wavelet(子波)、microwave(微波)、wavelength(波长)等的文献。,(4)中间截断 这种截断是将截词符号置于检索词中间。检索时,只要截词符号两侧的字符相同,含有该词的文献既为命中。这种方法可以解决英美的不同拼法和不规则的单复数变化。例如:analy?s相当于查找analysis(分析)和analyses(细察)。除此还有“位置语”等方法。3)全文检索(1)全文检索系统概念 全文检索是通过利用全文检索系统加以实现的。全文检索系统是由全文数据库、全文检索技术两部分构成。用户可以利用自然语言对全文检索系统进
11、行检索,可直接获取原文的有关章、节、段、句等信息。,全文数据库指运用全文检索技术,将文献信息的全文文档存储到数据库中,提供多条检索途径,实现超链接的原始文献信息的检索。全文检索是指对文献信息全文内容进行字符串的匹配检索,包括字符串检索、截词检索、同义词等控制以及后控制表等技术。(3)全文检索系统的特点(与传统的检索系统相比):(1)检索结果的直接性、原始性、可靠性;直接面向终端用户。(2)系统制作效率高:一是无需受控标引工作,二是缩短出版时间;(3)检索的详尽性、彻底性;,3.4 常用搜索引擎及其使用(P39.-40.)3.4.1 西文常用搜索引擎及其使用 3.4.1.1 Yahoo(),中文
12、 Yahoo(http:/,1)概况:Yahoo!是www上最著名的目录搜索引擎之一,也是目前最常用的网络检索工具。它于1994年4月,由美国斯坦福大学两位电子工程学博士研究生David Filo和Jerry yang(杨致远)开发。现除了主站(Wother Yahoo)外,还有美国都会城市分站(Yahoo Cities,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如Yahoo Asia)。无论形式上还是内容上质量都非常高。1998年5月4日,Yahoo!公司正式发布了第一个中文网上搜索的站点雅虎(http:/),成为搜索网上中文信息的重要检索工具。,2)检索功能与方法:Yahoo!
13、提供“分类”和“关键词”检索分类检索:,Yahoo 是一个目录式的综合性搜索引擎,将收录的内容分为29大类:360(360度)health(健康与医药)Music(音乐)Travel(旅行)Answers(回答)Horoscopes(星象)News(新闻)TV(电视)Autos(汽车)HotJobs(热门职业)Personals(人事消息栏)Weather(天气)Entertainment(娱乐)Kids(年轻人)Photos(照片)Yellow Pages(黄页)Finance(;金融;)Local(本地新闻)Real Estate(不动产)Y!International(国际运动比赛)Ga
14、mes(游戏)Maps(地图)Shopping(购物)Messenger(送信人)Sports(运动)Groups(类)Movies(电影)Tech(技术),点击:health,便可获得如下二级类目:CHILDRENS ASTHMA(儿童的哮喘);MENS HEALTH(成年男子健康)HEARTBURN(心脏 发热;WEIGHT LOSS CHOLESTEROL(体重 减低 胆固醇);STRESS(紧张);DIGESTIVE HEALTH(消化系统健康);WOMENS HEALTH(妇女健康)等(更多论题),如检索“妇女更年期”的相关信息检索课题:妇女更年期(woman climacteric
15、)检索工具及途径:Yahoo 分类途径检索词:woman;climacteric(menopause)检索结果:Home healthWOMENS HEALTH:,关键词”检索:检索课题:妇女更年期,检索结果:13条相关信息,检索规则:Yahoo!中国“可用”AND“、”and“、”&“进行逻辑”与“运算,以”OR“进行逻辑”或“运算,以”NOT“、”not“进行逻辑”非“运算。检索语法:,标识符 语法含义 说明“”词组精确匹配 查询包含完全符合关键词串的网站+,空格“与”或“and”前后两个词是“与”的逻辑关系-“非”前后两个词是“非”的逻辑关系 t:Title 仅搜索网站名称 u:URLs
16、 URLs,检索课题:woman climacteric 检索结果:,获取全文:,点击:,可以链接到该期刊,3.4.1.2 altavista http:/,1)概况AltaVista提供常规搜索、高级搜索和主题搜索,主题包括图象(Images)、音频、录像(MP3/Audio&Video)、新闻等。,2)搜索规则:可进行精确匹配查询时可使用“”号,但多数时候即使不用“”号,AltaVista也默认以精确匹配方式查询;不支持自动断词查询,但允许使用通配符“*”。区分字母大小写。当以大写字母查询时,默认为精确匹配,即查询结果不包括小写的关键词;而以小写字母查询时,则同时查找大写和小写。,检索课题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 检索 利用

链接地址:https://www.31ppt.com/p-6016748.html