信息检索第二章.ppt
《信息检索第二章.ppt》由会员分享,可在线阅读,更多相关《信息检索第二章.ppt(146页珍藏版)》请在三一办公上搜索。
1、网络信息资源检索与利用,主要参考资料,课本 因特网信息资源检索与利用第二版考试大纲湖北省高等教育自学考试大纲(课程名称:网络信息检索与利用 课程代码:6385)作业题平时作业+考试模拟题(4套),第一部分 课程性质与目标,一、课程性质与特点 本课程是高等教育自学考试网络传播业的(独立本科段)专业课程之一,具有较强的实践性的特点。该课程与其他课程密切相关,在整个课程体系中处于重要地位。,因特网信息的无限、无序、优劣混杂、缺乏统一的组织与控制的特点,给人们查找和利用信息造成了一定的不便。能够在因特网中准确、及时、有效地查找并获取所需要的信息,对本专业的学生是一项非常重要的技能。这也是开设本课程的重
2、要意义。,二、课程目标和基本要求通过本课程的学习,使学生能够:了解因特网信息资源的特点、种类、信息利用价值及评价、鉴选标准;了解并掌握因特网信息检索的基础知识了解并掌握各类型常用网络信息检索工具的功能、特点和评价、使用和检索方法;了解并掌握学术研究性信息、公共信息及各类专门信息的网上检索平台及查找方法。,第二部分 考试说明与实施要求,考核的能力层次表述:大纲在考核目标中,按照“识记”、“理解”、“应用”三个能力层次规定其应达到能力层次要求。各能力层次为递进等级关系,后者必须建立在前者的基础上,其含义是:识记:能知道有关的名词、概念、知识的含义,并能正确认识和表述,是低层次的要求。理解:在识记的
3、基础上,能全面把握基本概念、基本原理、基本方法,能掌握有关概念、原理、方法的区别与联系,是较高层次的要求。应用:在理解的基础上,能运用基本概念、基本原理、基本方法联系学过的多个知识点分析和解决有关的理论问题和实际问题,是最高层次的要求。,命题考试的若干规定,1、大纲各章所提到的内容和考核目标都是考试内容。试题覆盖到章,适当突出重点。2、试卷中对不同能力层次的试题比例大致是:“识记”为20,“理解”为40,“应用”为40。3、试题难易程度应合理:易、较易、较难、难比例为2:3:3:2。4、每份试卷进中,各类考核点所占比例约为:重点占65%,次重点占25%,一般占10%。5、试题类型一般分为:单项
4、选择题、多项选择题、名词解释题、简答题、论述题。6、考试采用闭卷考试,考试时间150分钟,采用百分制评分,60分合格。,题型示例,(一)、单项选择题1、下列属于目录型网络检索工具的是().A.B.C.(二)、多项选择题1、下列属于因特网信息资源的是()。AWWW信息资源 B.RSS信息资源.FTP信息资源D.用户服务组信息资源.Telnet信息资源(三)、名词解释题 1、布尔逻辑检索(四)、简答题 1、简述搜索引擎的工作原理。(五)、论述题 1、试述因特网检索工具的性能评价标准。,对大家学习提出几点要求,1、在开始阅读教材某一章之前,先翻阅大纲中有关这一章的考核知识点及对知识点的能力层次要求和
5、考核目标,以便在阅读教材时做到心中有数,有的放矢。2、阅读教材时,要逐段细读,逐句推敲,集中精力,吃透每一个知识点,对基本概念必须深记得理解,对基本理论必须彻底弄清,对基本方法必须牢固掌握。3、阅读完每章教材后,认真完成老师布置的作业,要求熟练掌握!并独立完成老师安排的4套复习模拟题,注意答题技巧和答题方法。,考试大纲要求掌握的章节,第一章 因特网信息资源(8分)第二章 因特网信息检索概论(17分)第三章 搜索引擎(17分)第四章 目录型网络检索工具(14分)第五章 元搜索引擎(14分)第六章 多媒体信息检索(11分)第七、八章 学术信息的网上检索与获取(11分)第九章 参考信息的网上检索(8
6、分),第三部分 考核内容与考核目标,第一章 因特网信息资源,一、学习目的和要求 通过本章的学习,考生应掌握因特网信息资源的种类和特点,了解因特网信息资源的评价方法,Internet简介,Internet历史与发展(因特网、国际互联网)1.ARPANet(1969年,美国国防部研制)2.NSFNet(1985年美国国家科学基金会建立,1989年取代ARPANet)3.Internet(1990年后迅速普及),国内与Internet直接联网的四大网络,1.中国教育科研网(CERNET)http:/2.中国科技网(CSTNET)http:/3.中国公用计算机互联网(CHINANET)http:/4.
7、中国金桥信息网(CHINAGBNET)http:/,Internet的入网方式,1.通过局域网方式2.通过ISP接入(ISP是提供Internet入网服务的机构)拨号接入:计算机、Modem、电话线、ISP 帐号。(ADSL)专线接入:租用数据专线或光缆、DDN等以及配套网络设备。,ADSL,(Asymmetrical Digital Subscriber Line,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。ADSL素有“网络快车”之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继Mo
8、dem、ISDN之后的又一种全新的、更快捷、更高效的接入方式。,Internet 的管理,1.TCP/IP协议:是计算机网络协议中最核心的两个协议。TCP是传输控制协议,处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。IP是网际协议,利用路由算法解决路由选择的问题。,Internet 的管理,2.IP地址:是Internet上每台主机和用户终端的识别标识。IP地址在全球范围内都是唯一的。IP地址的表示:3.域名系统(DNS):例:结构为:主机名.机构名.网络名.最高域名,Internet 的管理,常用网络名:com(商业机构)、edu(教育机构)、mil(军事部门)、
9、gov(政府部门)、org(非盈利组织)、net(网络服务商)最高域名:cn(中国)、uk(英国)、jp(日本)美国享有国家域名默认权。,Internet 的管理,4.客户机/服务器(client/server)模式服务器:是指向全球Internet用户提供信息和服务的高性能计算机,包括Web服务器、邮件服务器、文件传输服务器。客户机:是指连接在服务器上的工作站(网络终端)。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。,Internet 提供的主要服务,电子邮件服务(E-mail)文件传输服务(FTP)远程登录(Telnet)电子论坛(Electroni
10、c Forum)信息查询服务(Archie、Gopher、WAIS,WWW),Internet 提供的主要服务,1.电子邮件服务(E-mail)E-mail地址格式:用户名电子邮件服务器名如:常用电子邮件软件:Outlook Express,Eudora,Foxmail等,可管理多个邮件帐号,直接收发邮件。(将邮件pop到本地),Internet 提供的主要服务,2.文件传输服务(File Transfer Protocol,FTP)是以其遵守的文件传输协议 FTP而命名的。FTP是Internet上文件传输的各种规程的集合。通过FTP,用户可将本地文件上载给远程主机(upload),更多情况
11、是从远程主机上下载(download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等),Internet 提供的主要服务,3.远程登录(Telnet)是指本地计算机通过Internet访问远程计算机上的硬件资源、软件资源和信息资源的过程。对于限制公开访问的远程主机,登录时要输入用户名和密码。随着 www的普及,Telnet已少有使用。,Internet 提供的主要服务,4.电子论坛(Electronic Forum)是Internet用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论组(Usenet)。电子公告版(Bulletin Board System,BBS
12、)与专题讨论组功能相似,但其规模小得多,且BBS上的观点只留在本地服务器上。,Internet 提供的主要服务,5.信息查询(检索)服务 在E-Mail、FTP和Telnet基础上开发的,比较知名的工具有Archie、Gopher、WAIS等,目前大多数INTERNET用户通过WWW浏览和WWW信息检索工具查询和使用网络信息资源。,WWW概述,万维网(World Wide Web,WWW)又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用HTTP(超文本传输协议)在Internet上提供全球范围的多媒体信息服务。1993年1月,因特网上约有50个WWW服务器在工作,1999年高达3
13、00万个。现在WWW有等同于Internet的趋势。,WWW概述,超文本(Hypertext)包含两个含义:其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件;其二是网页文件内部包含链接(link)。,WWW概述,超文本标记语言(Hyper Text Markup Language,HTML)是制作Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。HTML编辑器:Frontpage、DreamWeaver、Netscape Composer,统一资源定位器(Uniform Resource Locator,
14、URL)用来描述信息资源的类型和在网上的位置,即网址。URL格式:http:/ftp:/协议:/文件所在服务器名/目录路径和文件名,WWW概述,WWW概述,浏览器(Browser)是使用WWW资源的客户软件。常用的浏览器有:网景公司的Navigator Communicator微软公司的Internet Explorer(IE),Web检索工具,是指提供万维网信息查询的计算机系统。工作原理:1.信息采集:利用网络自动搜索软件Robot或Spider,以一个URL清单为向导,定期对Internet上的网页进行扫描搜索,记录下网页的有关事项。2.数据标引:对采集到的网页信息数据,Robot等会自动
15、抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。,Web检索工具,3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等。4.检索功能:布尔算符检索(AND+、OR|、NOT-),截词检索,词组检索,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。,Web检索工具的类型,1.搜索引擎(search engine)自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典型:Google2.目录型检索
16、工具(Web directory,catalog)以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:Yahoo!、搜狐多数检索工具同时具有关键词检索和目录浏览功能。,Web检索工具的类型,3.多元搜索引擎(metasearch engine)通过统一的用户界面,可同时查询多个独立的Web检索工具,然后对这些结果进行加权等处理后返回给用户。例如:Metacrawler、Turbostart等;天网搜霸:强大的搜索引擎集成工具。飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具。,国外著名通用搜索
17、引擎,Yahoo!()Google()Lycos()Excite()AltaVista()Infoseek()HotBot(),Yahoo!,http:/Yahoo!的两位创始人大卫费罗(David Filo)和杨致远(Jerry Yang),美国斯坦福大学电机工程系的博士生,于1994年4月建立。Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本。(参见雅虎中国),检索途径:,分类浏览:分为14个大类,每个大类下又分若干子类。专题链接:与Shopping、Yellow Pages、Maps News、Sports等专题信息链接。简单检索:直接输入检索词高级
18、检索,Google,http:/Google 的释义 Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。,关于 Google,两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需
19、的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2 亿次查询服务。,Google,特点:界面非常简洁,速度极快;检索网页数量达24亿,搜索引擎中排名第一;支持多达132种语言;包括简体和繁体中文;具有“手气不错”、“网页快照”、图片搜索、新闻组搜索等功能。运算符:空格表示逻辑“与”;减号“”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。,中文通用搜索引擎,百度(http:/)搜狐(http:/)新浪(http:/)网易(),于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人百度总裁李彦宏,及其好友在硅谷有
20、多年商界成功经验的百度执行副总裁徐勇博士。百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线等。,百度(B,Inc),使用搜索引擎注意事项,分类体系的差异类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个。类名表述的不同:如新浪用“计算机”;网易用“电脑”。关键词标引高级搜索中运算符的使用空格(AND)、&(AND)、(NOT)、|(OR)、()“”表示一个整体单元。不同的查询服务:网站
21、、网页、新闻、软件等特殊的:图片、多媒体,网络信息资源的获取,Web检索工具(搜索引擎)网络数据库(文摘数据库、全文数据库)专业网站电子期刊、电子图书虚拟图书馆学科专业导航库,维普中文科技期刊数据库 http:/中国知网(中国期刊网)(CNKI)http:/国家科技图书文献中心http:/万方数据 http:/,国内主要数据库资源,国内医学搜索引擎和门户网站,眼科搜索三九健康网迈搏搜索中国导医网中国金卫网37医学网中国医药信息网 http:/中国中医药信息网http:/中国药网http:/,学科专业导航库,CALIS重点学科导航库(北大、复旦等)国家科技图书文献中心导航库,第一章 因特网信息资
22、源,教学内容:1.1、因特网上的信息资源 1.2、因特网上信息资源的特点及信息利用价值 1.3、因特网上信息资源的种类 1.4、因特网信息资源的评价 1.5、总结,1.1、因特网上的信息资源,因特网上有各种各样的信息,但并不是所有的内容都有。常见的误解有:认为因特网无所不包、无所不能;任何信息均可找到 认为在网上找到的信息都是正确的 认为因特网可以取代其他的媒体或信息渠道 认为因特网的信息无多大的利用价值,1.1.1 网上信息资源的种类,在网上可以找到的信息内容主要有:政府信息(网上最有价值的信息之一)指国际组织、各国政府及其相关部门所发布的信息。特点:权威 可靠 价廉,科研信息 指各类专业学
23、术机构所设立的网站及其相关信息。,教育信息指各大学所设立的网站及其相关信息。,文化信息 主要包括各类信息媒体的网站和世界各地图书馆的数字化馆藏及其公共检索目录(OPAConline public access catalog),消闲娱乐性信息(网上“最成功”的领域),但并不是所有的信息都可以在网上找到的.,1.2、因特网上信息资源的特点及信息利用价值,因特网作为数字化、网络化信息的核心和集成。它提供了一种全新的交流信息和查找信息的渠道,具有方便、及时快速和交互性的特点。具体的可分为:,无限性和广泛性:信息资源极为丰富,多样性超文本、超媒体、集成式的提供信息,廉价性:价廉,是一种比印刷品便宜的信
24、息提供方式,共享性广泛、直接交流,扩大人际交流的范围,提供更多机会,新颖性新颖、深入,提供了获取非出版信息的丰富机会,非正式和自由发表园地,无序性:在某些领域,信息来源分散、无序,没有统一的管理机构和发布标准,1.3、因特网上信息资源的种类,因特网信息资源包罗万象,广泛分布在整个网络中,没有统一的组织管理机构和目录。但按照其所采用的网络传输协议的不同,可将因特网信息资源划分为以下几种类型:万维网(World Wide Web,简称WWW)信息资源 Telnet 信息资源 FTP 信息资源 用户服务组信息资源 RSS信息资源,、万维网信息资源,万维网(World Wide Web,简称WWW)信
25、息资源是因特网信息资源的最主要、最常见的形式。它是指建立在超文本、超媒体技术的基础上,集文本、图像、图形、声音为一体,并以直观的图形用户界面(GUI)展现和提供信息的网络资源形式。自20世纪90年代问世以来发展极为迅速,他的超文本、超媒体特性使之在因特网信息存储和检索领域独占鳌头。与之相关的概念有:HTTP协议,HTML语言,URL,主页,连接,浏览器。,(1)超文本传输协议HTTP是浏览器与WEB服务器之间相互通信的协议,即WWW客户机和服务器用于网上传输、响应用户请求的协议。,(2)超文本标记语言HTML是一种专门编程语言,规定和描述文本显示的具体格式,即WEB服务器的信息是用HTML来描
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 第二
链接地址:https://www.31ppt.com/p-5230031.html