网络信息资源检索与利用.ppt
《网络信息资源检索与利用.ppt》由会员分享,可在线阅读,更多相关《网络信息资源检索与利用.ppt(116页珍藏版)》请在三一办公上搜索。
1、第五章 网络信息资源检索与利用,一.网络信息资源概述二.网络信息资源检索方法三.开放获取资源的检索,一.网络信息资源概述,1.网络信息资源定义2.网络信息资源类型3.网络信息资源特征,1.网络信息资源定义,到目前为止,网络信息资源尚没有统一的名称,类似的名称很多,如:“因特网信息资源”、“Internet信息资源”、“万维网资源”、“网上电子信息资源”、“网上数字信息资源”等等。在本课程中,我们为了便于同学们学习,统一用得到国内外大多数专家认可的名称“网络信息资源”来作为我们本章的名称,并给他下一个定义,以帮助同学们理解其含义。网络信息资源的定义:网络信息资源是指通过计算机网络可以利用的各种信
2、息资源的总和。具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。,2.网络信息资源类型,网络信息资源极其丰富,包罗万象,其内容涉及到农业、生物、化学、数学、天文学、航天、气象、地理、计算机、医疗和保险、历史、大学介绍、法律、政治、环境保护、文学、尚贸、旅游、音乐和电影等几乎所有专业领域,它是知识、信息的巨大集合,是人类的资源宝库。关于网络信息资源的种类,从不同的角度给予了不同的分类:,WWW信息资源FTP信息资源Telnet信息资源Usenet/Newsgroup用户服务组和新闻组信息资源LI
3、STSERV/Mailing List(列表服务器/邮件列表服务器)是处理预定的邮件列表并按照列表中的成员名字分发新信息新闻信件或其他的信件给所有的用户。(列表服务器不应该与邮件服务器弄混,邮件服务器为互联网用户处理接受和发送电子邮件的任务。)Gopher信息资源WAIS 广域信息查询系统,(1)、按传输方式划分,2.网络信息资源类型(续),正式出版电子图书、电子期刊、数据库、计算机软件、图书馆公共查询目录等非正式出版电子邮件、电子公告版(BBS)、论坛、博客(Blog)等,开放获取开放获取(open access)期刊收藏库,2.网络信息资源类型(续),(2)、按交流方式划分,一次出版信息网
4、上图书、期刊、报纸、专利、政府出版物、会议资料等二次出版信息文摘索引数据库、搜索引擎、网站导航等三次出版信息百科全书、手册指南等参考型网站,2.网络信息资源类型(续),(3)、从内容加工角度划分,2.网络信息资源类型(续),博客(BLOG)播客(PODCASTING)书签(Tag)真正简易聚合(RSS):RSS订阅即时通讯(Instant Messenger,简称IM),典型代表为MSN和QQ。社会性网络软件(Social Network Software,简称SNS)WIKI(维基):全称Wikipedia,中文译名:维基百科。“维基百科”可引申为因特网中装载人类基础知识的百科全书,是一种采
5、用wiki协作系统的在线百科。,(4)、网络应用的新形式 Web2.0,3.网络信息资源特征,3.1 存储数字化 信息资源由纸张上的文字变为磁性介质上的电磁信号或者光介质上的光信息,是信息的存储和传递,查询更加方便,而且所存储的信息密度高,容量大,可以无损耗地被重复使用。以数字化形式存在地信息,既可以在计算机内高速处理,又可以通过信息网络进行远距离传送 3.2 表现形式多样化 传统信息资源主要是以文字活数字形式表现出来的信息。而网络信息资源则可以是文本,图像,音频,视频,软件,数据库等多种形式存在的,涉及领域从经济,科研,教育,艺术,到具体的行业和个体,包含的文献类型从电子报刊,电子工具书,商
6、业信息,新闻报道,书目数据库,文献信息索引到统计数据,图表,电子地图等,3.网络信息资源特征(续),3.3 以网络为传播媒介 传统的信息存储载体为纸张,磁带,磁盘,而在网络时代,信息的存在是以网络为载体,以虚拟化的姿势状态展示的,人们得到的是网络上的信息,而不必过问信息是存储在磁盘上还是磁带上的。体系那了网络资源的社会性和共享性。3.4 数量巨大,增长迅速 CNNIC一年两次发布的中国互联网络发展状况统计报告,全面反映和分析了中国互联网络发展状况,以其权威性著称。从本次报告中可以看出,截至到2002年12月31日,我国上网计算机数量为2083万台;CN下注册的域名数量达到17.9万个;网站数量
7、达到了37.1万个;国际出口带宽总量为9380M。,3.网络信息资源特征(续),2.5 传播方式的动态性 网络环境下,信息的传递和反馈快速灵敏,具有动态性和实时性等特点。信息在网络种的流动性非常迅速,电子流取代恶劣纸张和邮政的物流,加上无线电和卫星通讯技术的充分运用,上传到网上的任何信息资源,都只需要短短的数秒钟就能传递到世界各地的没一个角落。2.6 信息源复杂 网络共享性与开放性使得人人都可以在互联网上所取和存放信息,由于没有质量控制和管理机制,这些信息没有经过严格编辑和整理,良莠不齐,各种不良和无用的信息大量充斥在网络上,形成了一个纷繁复杂的信息世界,给用户选择,利用网络信息带来了障碍。,
8、二.网络信息资源检索方法,浏览(Browsing)偶然发现(网上冲浪,随意性阅读)顺“链”而行;(Bookmark、Hotlink,、Hotlist)基于目录型网络检索工具(分类目录树)的资源导航,如:Yahoo!或其它专业性网络资源指南(Resource Guide)检索(Searching)利用搜索引擎等网络检索工具,输入关键词、短语、词组等进行检索,基于超文本的信息查询,基于目录的信息查询,基于搜索引擎的信息查询,二.网络信息资源检索方法(续),1、基于超文本的信息查询基于超文本的浏览模式是浏览查询信息的一种最基本的方式,用户只需以一个节点(网络主页)作为入口,根据节点中镶嵌在各个超文本
9、内容中的热链接(超链接)指向的主题,用户就可以轻松地跳转到自己感兴趣的节点进一步浏览查询到自己所需的信息。从一个www 服务器到另一个www 服务器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息。通过超文本链接可逐步遍历庞大的Internet。,点击“篇名”就可以跳转到该新闻的内容,点击“中国工商银行图片”就可以跳转到中国工商银行天津分行的主页,中国工商银行天津分行的主页,二.网络信息资源检索方法(续),2、基于目录的信息查询为了帮助Internet用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,
10、这样一层一层地查下去,直到比较具体的信息标题。目录存放在www 服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。有许多机构专门收集Internet 上的信息地址,并编制成目录提供给网上用户。Yahoo就是一个非常著名的基于目录帮助的网站,其目录按照一般主题组织,顶层按资讯、娱乐、体育、财经、社区、通讯等分成许多大的目录,每一大的目录又分成若干子目录,层层递进。见下图:,目录,军事目录下的子目录,二.网络信息资源检索方法(续),3、基于搜索引擎的信息
11、查询风靡全球的因特网是全球规模最大的信息源基地,但因特网上的信息像原子裂变迅速膨胀,要想在浩瀚无边的信息海洋中迅速而准确地获取自己需要的信息,如没有专门的搜索工具,任何人只能望网兴叹。在这种情况下,网络搜索引擎应运而生。那么什么是搜索引擎?怎样使用搜索引擎?(1)、什么是搜索引擎?所谓搜索引擎,简单地说,就是采用信息自动跟踪、标引等技术,在因特网上建立专门提供网络信息资源导航服务的检索工具。搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索”服务,它使用特有的程序把因特网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。,二.网络信息资源检索方法(续),(2)、
12、搜索引擎的组成,(3)、搜索引擎工作原理:从互联网上抓取网页建立索引数据库在索引数据库中搜索。,二.网络信息资源检索方法(续),(3)、搜索引擎工作原理(续),搜索引擎由网上机器人(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。Spider 或Robot 是一种软件,它沿着WWW文件的链接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(Keywo
13、rd)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。,二.网络信息资源检索方法(续),二.网络信息资源检索方法(续)(4)、搜索引擎的种类,检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:Google、百度、天网、悠游、AltaVista等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球混合型搜索引擎:它兼有检索型和目录型两种方式。如:新
14、浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。著名的有:Dogpile、Mamma和万维搜索(Http:/)等。,二.网络信息资源检索方法(续)(5)、搜索引擎的一般查询规则,用此方法进行查询的有Google、百度、雅虎()、3721(),用此方法进行查询的有新浪、搜狐、网易、找到啦、中华网和常青藤等,1)使用逻辑运算算符:AND/+/引号(“”)的作用是括在其中的多个词被当作一个短语来检索。2)使用位置算符如用AltaVista 查询Ba
15、ijing NEAR/3 Olympic查询时,这两个词之间的单词数不超过3个3)使用字段限定Intitle表示只包含要查询的关键词。如“intitle安徽工业大学工商学院”则只输出安徽工业大学工商学院的信息,其他学院的信息则不显示,不是检索的结果.Site限定在某个网站搜索、filetype限定文件类型、inurl限定域名搜索,按关键词进行精确查询,检索式的运算符号,自动将关键词拆分进行模糊查询,二.网络信息资源检索方法(续)(6)、有代表性的中英文搜索引擎,百度http:/天网中国搜http:/搜狗http:/一搜,http:/新浪查博士http:/,Google,AltaVista()H
16、otBot()Lycos()Infoseek GExcite()Ask Jeeves,Inktomi,Northern Light,()WisenutYahoo,二.网络信息资源检索方法(续)(7)、常用搜索引擎介绍google,Google的香港站点主页http:/,二.网络信息资源检索方法(续)(7)、常用搜索引擎介绍google,1、概述Google是由两个斯坦福大学博士生Larry Page(拉里佩吉)与Sergey Brin(谢尔盖布林)于1998年9月发明,Google Inc.于1999年创立。Google来源于“googol”,它表示1的后面跟100个零,Google用这个词表
17、示该公司想征服网上无穷无尽的资料的雄心。Google现在是Yahoo、网易等的搜索引擎。Google支持多达132种语言,包括简体中文和繁体中文;自动检索操作系统的语种。其优势在于掌握的信息量以及检索模型和检索速度。它可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介。Google采用全文标引方式,提供每日更新。现在,Google可以查询的网址达80多亿个,图片10亿张。智能化的“手气不错”功能,提供可能最符合要求的网页。“网页快照”功能,能从Google服务器里直接取出缓存的网页,Google 的查询界面,设置搜索偏好,包括
18、每个网页上默认的搜索结果数量、界面语言,以及查询语言,直接进入最符合搜索条件的网页,二.网络信息资源检索方法(续)(7)、常用搜索引擎介绍google,2、检索功能基本检索:(布尔检索功能)逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接逻辑“非”:用“”(减号)表示,同时要求在减号前保留一个空格逻辑“或”:用“OR”表示双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词指定网域:利用site:可以在某个特定的网站或域中进行搜索指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf,
19、filetype:ppt等,逻辑与功能,逻辑非功能,逻辑或功能,专用语查询功能,“”、“-”、“”、“+”、“=”、“,”“”,指定网域,指定文件类型,2、检索功能(续),网页快照如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快 如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中Google用黄色表明关键字位置,2、检索功能(续),集成化的工具条为了方便搜索者,Google提供了工具条,集成于浏览器中,用
20、户无需打开Google主页就可以在工具条内输入关键字进行搜索工具条还提供了许多其它功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。安装Google的工具条,可以访问“http:/”,按页面提示可以自动下载并安装,点击下载,2、检索功能(续),其它功能网页目录网上博克搜索学术搜索图书搜索,学术搜索引擎 http:/,使用Google时应注意的问题,Google不区分英文字母的大小写,所有字母均作小写对待。例如:输入“george washington”(乔治华盛顿),或是“George Washington”
21、,再或是“gEoRgE wAsHiNgToN”,结果都是一样的通配符问题。Google对通配符的支持有限,只能用“*”代替单个字符,而且必须将检索词用引号引起来,如“以*治国”搜索引擎忽略的字符与强制检索。Google对一些出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。如果检索词中包含这些字符,必须进行强制检索,在这些字符前后用“+”,如“+www+的历史”,或用英文的引号,强制搜索,二.网络信息资源检索方法(续)(8)、常用搜索引擎介绍百度,http:/,李彦宏,徐勇,百度,2000年1月创立于北京中关村,是全球最大的中文搜索引擎。2
22、000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。,(1)、概况,“百度”二字取自辛弃疾的青玉案“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎,用户能够访问超过10亿的中文网页.,(2)、特点,(3)、网页搜索功能,百度快
23、照 相关搜索 拼音提示 错别字提示 英汉互译词典 计算器和度量衡转换 专业文档搜索 股票、列车时刻表和飞机航班查询 高级搜索语法 高级搜索、地区搜索和个性设置 天气查询,3.1 百度快照,每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。如果无法打开某个搜索结果,或者打开速度特别慢,“百度快照”能帮您解决问题。,3.2 相关搜索,搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度
24、排序。,3.3 专业文档搜索,很多有价值的资料,在互联网上并非以普通的网页形式出现,而是以Word、PowerPoint、PDF等文档格式存在。百度支持对Office文档(包括Word、Excel、PowerPoint)、Adobe PDF文档、RTF文档的全文搜索。方法为在搜索的关键词后面加一个“filetype:”文档类型限定。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件类型。,3.4 高级搜索,把搜索范围限定在网页标题中intitle 标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良
25、好的效果。,3.4 高级搜索(续),把搜索范围限定在特定站点中site 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。,3.4 高级搜索(续),把搜索范围限定在url链接中inurl网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词,3.4 高级搜索(续),精确匹配双引号“”和书名号如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息资源 检索 利用
链接地址:https://www.31ppt.com/p-5300798.html