第二章 互联网信息资源检索概论要点课件.ppt
《第二章 互联网信息资源检索概论要点课件.ppt》由会员分享,可在线阅读,更多相关《第二章 互联网信息资源检索概论要点课件.ppt(50页珍藏版)》请在三一办公上搜索。
1、第2章,第2章 互联网信息检索概论,2.1互联网信息检索类型和特点2.2互联网信息检索原理之一信息组织2.3互联网信息检索原理之二信息查询2.4互联网检索工具的性能评价,2.1互联网信息检索的类型和特点,2.1.1互联网信息检索的类型2.1.2互联网信息检索的特点,2.1.1互联网信息检索的类型,1、“顺链而行”的浏览基于互联网“超链接”的技术特点,用户在浏览网页时,可以非常方便地利用超文本文件中的链接从一个网页跳转到另一个相关网页。这些类似于传统文献检索中的“追溯检索”,但是检索效率已大大提升。追踪网页的超链接,用户可以一轮一轮不断地扩大检索范围,在很短的时间内获得大量相关信息。,在互联网发
2、展初期,“顺链浏览”的人工浏览方式是互联网信息检索最主要的手段,而浏览器的“书签”(收藏夹)功能是成为该阶段被使用得最多的功能之一。,马云与黄页,1995年4月,马云和妻子再加上一个朋友,凑了两万块钱,专门给企业做主页的杭州海博网络公司就这样开张了,网站取名“中国黄页”,成为中国最早的互联网公司之一。其后不到三年时间,他们利用该网站赚到了500万元。中国黄页2009年6月1日,网站正式上线,完全公益性网站,不收任何费用!,人们对互联网信息的寻找,从最原始的“顺链浏览”到黄页等早期检索工具,实现了第一个飞跃。互联网黄页本质上就是一种目录型检索工具。,2、基于目录型检索工具的互联网信息检索,目录型
3、检索工具,也被称为网络资源目录或网络主题指南,它是一种基于人工的检索工具,由人工发现、抓取、辨别互联网信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据的体系,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面,用户通过逐级浏览这些目录来查询自己所需要的内容。,最具代表的互联网目录型检索工具当属“yahoo”(雅虎),是由斯坦福大学的研究生杨致远(Jerry Yang)和David Filo与1993年创立的。互联网刚开始发展时,他们在网上冲浪时,逐渐把自己喜爱的站点编成一个名单以便寻找,并将这一名单在网上公布,供网友使用,这就是雅虎的前身,也是目录型检索
4、工具的工作原理。张朝阳在中国创办“搜狐”,也是比较成功典型的互联网目录型检索工具。,优点:人工参与度高,网络资源目录的组织编排符合人们所熟悉的知识分类体系,检索目标性相对较强,提供的检索结果准确性也较高。缺点:信息涵盖量不大,更新能力有限,相对成本较高。面临挑战:在互联网发展早期,为人们检索互联网站点提供了极大的方便,但随着互联网的持续发展,它的缺点也越来越明显,其地位收到了以Google为代表的搜索引擎的挑战。时过境迁,雅虎和搜狐都已经发展成了门户网站。,补充:门户网站,中国四大门户网站:新浪、网易、搜狐、腾讯门户网站:又被称为链接页面,是通向某类综合性互联网信息资源并提供相关信息服务的应用
5、系统。,发展前景:,虽然目录型检索工具在当今互联网信息检索界的地位已不如从前,但仍是一支不可忽视的力量。比如在2004年,百度公司收购hao123,hao123是一个个人维护的目录型检索工具,它成为了相当一部分上网用户的“入口”,许多对上网无从下手的人,最需要的就是这样的导航网站,如今360也开发了360网址。,3、基于索引型检索工具的互联网信息检索,随着互联网信息量的急剧增加,仅以“网站”为信息基本单元的检索方式已经不能满足更精细的检索需求,于是基于“页面”为信息基本单元的检索方式成为主流。最具代表性的索引型网络检索工具就是搜索引擎,搜索引擎原理,利用一个成为Robot的程序自动访问Web站
6、点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,并将搜集到的网页加入到搜索引擎的数据库中,并建立索引,供用户检索使用。然后用户输入关键字之后进行检索。,优点,充分利用了计算机的处理能力,对于规模巨大的互联网信息资源的索引和检索具有强大的优势,使得人们可以用更少的时间检索到更广阔的互联网信息。,缺点,1.检索噪音问题。使用搜索引擎检索某个关键词或关键词组合,通常会返回大量检索结果,逐一浏览这些结果对用户来说是不现实的。搜索引擎不断改进算法,使得最满足检索需求的结果排序靠前,取得了一定的效果,但是仍不能完全令人满意。,2、索引非文件形式的互联网信息资源的能力有限,为了保证Robot抓取
7、网页的效率,让其不至于迷失在无尽的链接中无法返回,通常Robot在漫游各个网站时会受到目录深度的限制,较大搜索引擎的robot一般也就能顺链到一个网站的4-5层页面而已。,4、其他互联网检索工具,元搜索引擎。它弥补了搜索引擎的不足,他不存在Robot,也不存在存放网页的数据库,当用户检索一个关键词时,它把用户的检索请求转换成其他搜索引擎所能接受的命令格式,并发送访问数个搜索引擎来检索这个关键词,这些搜索引擎的结果经过处理后再返回给用户。优点:扩大检索范围,提高检索效率,增加了找到所需信息的可能性。,垂直搜索引擎其特点是“专、精、深”,且具有行业色彩,与通用搜索引擎的海量信息无序化相比,垂直搜索
8、引擎的信息量虽然小,但更加专注、深入具体。比如酷讯的机票检索和团800的团购导航。,2.1.2互联网信息检索的特点,1、无限检索范围,动态的检索对象2、丰富的检索内容,新兴的检索领域3、强大的检索工具,低廉的检索费用,2.2互联网信息检索原理之一信息组织,目录型检索工具是基于某种人类制定的知识分类体系,对网络信息资源的编排和组织加以人工控制,其工作原理相对简单。这里介绍的互联网信息检索原理,主要是指基于计算机技术的索引型检索工具的工作原理。,2.2.1文档分析,文档分析的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。其基本目的是为了获取最优的索引记录,是用户能很容易地检索
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二章 互联网信息资源检索概论要点课件 第二 互联网 信息资源 检索 概论 要点 课件
链接地址:https://www.31ppt.com/p-1869713.html