《信息检索概述》PPT课件.ppt
《《信息检索概述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《信息检索概述》PPT课件.ppt(112页珍藏版)》请在三一办公上搜索。
1、信息检索,信息检索研究室 秦兵2007,我们所使用的Web搜索系统,我们将学到什么内容?,基本内容信息检索概述及评价信息检索模型检索的改进信息过滤Web信息检索高级话题文本分类和聚类问答系统及自动文摘,参考书,Ricardo Baeza-Yates and Berthier Ribeiro-Neto,Modern Information Retrieval,Addison-Wesley.1999.W.B.Frakes and R.Baeza-Yates,Information Retrieval:Data Structures&Algorithms,Englewood Cliffs,NJ:Pr
2、entice Hall.1992.Christopher D.Manning,Prabhakar Raghavan and Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press.2007.李晓明,闫宏飞等。搜索引擎原理,技术与系统,信息检索的概述,在这一部分我们将了解到:,信息检索概念及意义信息检索体系结构历史、现状与困难发展趋势国内外主要搜索引擎信息检索的应用,信息检索的概念及意义,信息检索定义,信息检索:从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据
3、库是结构化数据,IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。和情报检索的区别情报检索介绍如何利用信息检索工具,典型的信息检索任务,给定条件自然语言的文档集合用户的提问(Query)查找结果和query相关的经过排序(Rank)的文档子集,信息检索任务进一步划分为:,信息或数据的检索和浏览拉出(pulling)行为集合中的文献相对静止信息过滤信息过滤的变通方式-路由选择推送(filtering)行为用户查询相对静止,用户需求:Query 及 Profile 形式,关键词带布尔操作的关键词自由文本事例文档.,信息检索样例,信息过滤(推送)样例,信息检索系统,IRSys
4、tem,信息检索处理的对象,非结构化数据文本数据:新闻、科技论文等网页:HTML、XML多媒体数据:图像、视频、图形、音频目前最主要的处理对象是互联网文字图片,基于内容的图像查询,用户的提问,搜索引擎,基于文本的图像查询,信息存在的形式,在非结构化信息中,包括文本信息和多媒体信息以文本检索方式为主,例如:目前Google的图片检索技术采用的是利用图片周围的文字信息进行的大多数信息都是文本形式的,没有预先定义的格式(例如:邮件、新闻等)在企业信息化领域,有人统计认为80%的信息是非结构化的在信息管理向知识管理转变的过程中,文本信息非常关键,信息检索的重要性,由信息匮乏到信息爆炸,需要有效的检索方
5、式传统管理软件需要嵌入IR技术在SQL数据库中已采用文本检索技术select*from Employee where Name like%Lee%.在Lotus Notes办公平台上同样也已采用文本检索技术互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求,检索无处不在,智能计算:从人机交互到内容管理,人机交互解决信息录入和呈现的问题在大量信息进入虚拟世界以后,更重要的问题在于如何对这些信息资源进行有效的管理使用户能够方便快捷地找到想要的信息使信息保值增值产生新知竞争不在于拥有多少信息,而在于能够利用多少有价值的信息,因此内容管理至关重要,信息检索系统体系结构,信息检
6、索系统的体系结构,分词删除停用词Stemming(提取词干),为文档建立倒排索引表,根据倒排索引表检索出与提问相关的文档,将检索出的文档根据相关性排序,Query输入和文档输出相关反馈结果的可视化,对query进行变换,以改进检索结果,Web搜索,将IR技术应用于World Wide Web上的HTML网页和纯文本相比,网页的特点如下:必须通过在网上“爬行”搜集网页可以开发结构布局信息文档的更新是不可控的可以开发网页之间的链接结构,Web搜索系统,IR系统,IR的历史与现状,IR的历史,1960-70s:最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基本的布尔模型和向量空
7、间模型Cornell University的Prof.Salton和他的学生成为这个领域的先驱,IR历史,1980s:IR技术出现在大型文档数据库中Lexis-Nexis美国LEXIS-NEXIS公司创始于1973年,其数据库内容很广,其中法规法律方面的数据库是LEXIS-NEXIS的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度Dialog目前世界上最大的联机检索检索系统之一,包括各学科数据库600多种,可查询研究动态,SCI,EI收录以及专利等情况MEDLINEMEDLINE是美国国家医学图书馆的文献数据库,IR历史,1990s:在互联网上进行对FTP文档进行搜索Archie
8、Archie是Internet上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。WAIS代表“广域信息服务”(Wide Area Information Service)。Wais作为Internet一项服务,是唯一由三个商业公司(Apple、Thinking Machines和Dow Jones)启动的研究计划促成的服务。,IR历史,1990s(续):在World Wide Web上进行搜索Yahoo雅虎成立于1994年,是网上最老的“分类目录”,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达36%左右。AltavistaAltaVista是网上最早的爬行搜索引擎
9、。AltaVista搜索技术从纯文本搜索技术开始,发布于1995年;1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。,IR 历史,1990s(续):有组织地进行评测美国标准与技术研究所NIST和国防部高级研究规划局DARPA共同发起TREC,1992年开始智能推荐系统(个性化推荐,良好的互动性,适应性)RingoAmazon(亚马逊网络售书)NetPerceptions自动文本分类和聚类系统,IR 历史,2000s为Web搜索服务的链接分析Google自动信息抽取Whizbang
10、FetchBurning Glass问答系统TREC Q/A track,近期的IR,2000s:多媒体IR图像(Image)视频(Video)声音(speech)和音频(Audio)音乐(music)跨语言检索Cross-Language IRDARPA Tides项目智能化、个性化IR,互联网发展状况,中国互联网信息中心(CNNIC)于2005年7月发布的第16次中国互联网络发展状况统计国内上网用户已达1.03亿用户经常使用的网络服务/功能:电子邮箱(91.3%)浏览新闻(79.4%)搜索引擎(64.5%)搜索引擎是用户在互联网上获取信息的最常用的方法(58.2%),IR的困难,难点所在,
11、分析技术亟待更新,否则很难有质的突破很难获取非结构化文本的语义信息“select*from Employee where Salary 100,000”“找出所有关于公司购并的新闻”“找出所有和互联网公司购并相关的新闻”上述三个问题,一个比一个难资源检索是在非受限域(unrestricted domains)文档集上进行的很难对文档的类别事先定义或分类,难点所在(续),用户不同的用户基础提问的意图、文档的意图均很难捕获不断有新的需求提出(搜索引擎的第2维,第3维)用户的耐心不足系统网页是分布式的和相互连接的从什么地方开始搜索?信息是如何相互关联的?效率(efficiency)和效果(effec
12、tiveness)在有限的资源内,只能把效率和效果提高到有限的水平提高效率常常损失效果,反之亦然,新的资源和需求刺激新的技术突破,新的信息资源 Document-page,blog,Web image,新的媒体类型Text-image,video,speech,music,map,新的架构Plain text file-hypertext,P2P,semantic Web,新的应用Crawler,email spam filter,MP3 search,mobile search,主要的冲击已不再来自于IR技术的突破,Web 搜索的事实是怎样的?,短的query 英文:2.35 words(A
13、ltavista,1998)中文:3.55 chars(1999)偏精确率的检索用户常常浏览第一页的结果,每个查询的词数:,ReferenceAmanda Spink&Bernard J.Jansen(2004).Web Search:Public Searching of the Web.Springer.,每个用户的查询次数:,每个用户查询的网页:,可以看到:,Query,Document,Similarity,A huge number of pages with matched query termson the Web,Query=“information retrieval”,经过
14、文本相似度计算获得的排序对于短Query有些力不从心,导致检索结果不尽人意,短 Query&检索,Query,Document,QuerySpace,DocSpace,Similarity,Query=“information retrieval”,用户需求&文档的权威性,Query,Document,QuerySpace,DocSpace,Similarity,Concept:“IR book“IR systems”,“SIGIR Web sites”,Authority:,Query=“information retrieval”,Representative IR book,传统 IR的
15、通常包含这样的假定,Query 较长 TREC对主题(查询)描述平均15个词评价考虑精确率和召回率对前1000个返回结果计算平均精确率和召回率,多数检索系统是基于关键词的搜索,最简单的概念就是关键词在文档中逐字出现稍微严格一点的定义是:提问中的关键词在文档中频繁出现,并且不考虑顺序,基于关键词搜索存在的问题,可能找不到同义词“PRC”vs.“China”“电脑”vs.“计算机”可能检索到一些不相关的多义词“bat”(baseball vs.mammal)“Apple”(company vs.fruit)保安(地名 vs.保护安全的人员),解决方案:智能信息检索,考虑词汇的意义(meaning)
16、考虑词汇的顺序(order)根据直接或间接的反馈适应用户的需求考虑信息来源的权威性(authority),用户体验:检索结果的呈现,检索结果的表现Web 检索结果是很长的列表,用户很难在概念层浏览结果检索结果分门别类信息进一步优化,DEF,Books,Tools,新课题检索结果聚类,检索结果聚类,检索结果聚类,从呈现形式到内容的变化聚类文档的内容整合,信息抽取美国科学家目前正在研究一种新型“搜索引擎”搜得,表示它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理信息融合单文档文摘多文档文摘,发展趋势,发展历程,以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息检索概述 信息 检索 概述 PPT 课件

链接地址:https://www.31ppt.com/p-5464162.html