计算机学科导论第3章.ppt
《计算机学科导论第3章.ppt》由会员分享,可在线阅读,更多相关《计算机学科导论第3章.ppt(37页珍藏版)》请在三一办公上搜索。
1、信息检索原理与应用,1,信息检索的基本概念信息检索的历史搜索引擎的基本原理常见的搜索引擎,2,Web is NothingwithoutSearch,信息检索原理与应用,3,信息过载(Information overload)“全世界每年产生1到2EB(1EB=1024PB,1PB=1024TB)信息,相当于地球上每个人大概产生250MB信息。其中纸质信息仅占所有信息的0.03%.”Tom Landauer认为人的大脑只能存储200M信息量,一辈子只能接触6G的信息量。“人类目前至少生产了40亿网页,而人类有史以来上万年产生了大约1亿本书;中国网上大约有3亿网页,而中华民族有史以来出版的书籍大
2、约不超过275万种”(2004年)。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。,信息检索的基本概念,信息检索原理与应用,4,2000-2008年中国网站规模变化,信息检索的基本概念,信息检索原理与应用,5,2002-2008年中国网页规模变化,信息检索的基本概念,信息检索原理与应用,6,全球数字化进程加快1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。,信息检索的
3、基本概念,信息检索原理与应用,7,一方面,人们可以获得的信息的来源非常广泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息?信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多用户需求的表达和理解非常困难信息的理解非常困难自然语言文本、图片、视频,信息检索的基本概念,信息检索原理与应用,8,信息检索是研究如何解决上述问题的一门学科!Information Retrieval这个术语产生于Calvin Mooers 1948年在MIT的硕士论文。信息检索(Information Retrieval,IR)从文档集合中返回满足用户需求的相关信息的过程。是研究
4、信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问。,信息检索的基本概念,信息检索原理与应用,9,信息检索可以看成计算机科学和图书情报学的交叉学科。以计算机为手段,处理信息对象和其他学科也融合:语言学、认知科学、检索来自英文单词Retrieval,有些人把它翻译成获取。其本义是“获得与输入要求相匹配的输出”,和我们平时所理解的搜索意义上的检索不一样。Retrieval Search,信息检索的基本概念,信息检索原理与应用,10,信息检索 v.s.搜索引擎例1:返回与信息检索相关的网
5、页搜索引擎(Search Engine,SE)例2:毛主席的生日是哪天?问答系统(Question Answering,QA)例3:返回联想PC的型号、配置、价格等信息信息抽取(Information Extraction,IE)例4:订阅有关NBA的新闻信息推荐(Information Recommending)狭义的IR通常是指Information Search,而广义的IR包含非常多的内容(SE,QA,IE,)。,信息检索的基本概念,信息检索原理与应用,11,基本概念用户需求(User Need)用户需要获得的信息严格地说,用户需求只存在于用户的内心,但是通常用文本来描述,如查找与NB
6、A相关的新闻,有时也称为主题(Topic)用户需求提交给检索系统时称为查询(Query),如“NBA”,对同一个用户需求,不同人不同时候可以构造出不同的Query,比如上述需求也可表示成“NBA新闻”、“NBA赛况”等,Query在IR系统中往往还有内部表示,信息检索的基本概念,信息检索原理与应用,12,基本概念文档集(Collection)所有待检索的文档构成的集合文档(Document):检索的对象可以是文本,也可以是图像、视频、语音等多媒体文档可以是无格式、半格式、有格式的,信息检索的基本概念,信息检索原理与应用,13,基本概念相关度(relevance)检索的到的文档满足用户查询需求的
7、程度。相关取决于用户的判断,是一个主观概念不同用户做出的判断很难保证一致即使是同一用户在不同时期、不同环境下做出的判断也不尽相同相关度通常只有相对意义,对一个查询,不同文档的相关度可以比较,而对于不同的查询的相关度不便比较,信息检索的基本概念,信息检索原理与应用,14,信息检索和数据库检索,信息检索的基本概念,信息检索原理与应用,15,计算机出现以前约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。计算机问世以前,人们主要通过手工方式来建立索引。1948C.N.Mooers在其MIT的硕士论文中第一
8、次创造了“Information Retrieval”这个术语。,信息检索的历史,信息检索原理与应用,16,196070年代人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统。产生了经典的信息检索模型:布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model)。1980年代出现了一些商用的较大规模数据库检索系统Lexis-Nexis:为法律研究提供全文检索的联机服务系统Dialog:世界上最大的国际联机情报检索系统MEDLINE:国际性综合生物医学信息书目数据库,信息检索的历史,信息检索原
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 学科 导论

链接地址:https://www.31ppt.com/p-6023605.html