欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    《信息检索概述》PPT课件.ppt

    • 资源ID:5464162       资源大小:3.40MB        全文页数:112页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《信息检索概述》PPT课件.ppt

    信息检索,信息检索研究室 秦兵2007,我们所使用的Web搜索系统,我们将学到什么内容?,基本内容信息检索概述及评价信息检索模型检索的改进信息过滤Web信息检索高级话题文本分类和聚类问答系统及自动文摘,参考书,Ricardo Baeza-Yates and Berthier Ribeiro-Neto,Modern Information Retrieval,Addison-Wesley.1999.W.B.Frakes and R.Baeza-Yates,Information Retrieval:Data Structures&Algorithms,Englewood Cliffs,NJ:Prentice Hall.1992.Christopher D.Manning,Prabhakar Raghavan and Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press.2007.李晓明,闫宏飞等。搜索引擎原理,技术与系统,信息检索的概述,在这一部分我们将了解到:,信息检索概念及意义信息检索体系结构历史、现状与困难发展趋势国内外主要搜索引擎信息检索的应用,信息检索的概念及意义,信息检索定义,信息检索:从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据库是结构化数据,IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。和情报检索的区别情报检索介绍如何利用信息检索工具,典型的信息检索任务,给定条件自然语言的文档集合用户的提问(Query)查找结果和query相关的经过排序(Rank)的文档子集,信息检索任务进一步划分为:,信息或数据的检索和浏览拉出(pulling)行为集合中的文献相对静止信息过滤信息过滤的变通方式-路由选择推送(filtering)行为用户查询相对静止,用户需求:Query 及 Profile 形式,关键词带布尔操作的关键词自由文本事例文档.,信息检索样例,信息过滤(推送)样例,信息检索系统,IRSystem,信息检索处理的对象,非结构化数据文本数据:新闻、科技论文等网页:HTML、XML多媒体数据:图像、视频、图形、音频目前最主要的处理对象是互联网文字图片,基于内容的图像查询,用户的提问,搜索引擎,基于文本的图像查询,信息存在的形式,在非结构化信息中,包括文本信息和多媒体信息以文本检索方式为主,例如:目前Google的图片检索技术采用的是利用图片周围的文字信息进行的大多数信息都是文本形式的,没有预先定义的格式(例如:邮件、新闻等)在企业信息化领域,有人统计认为80%的信息是非结构化的在信息管理向知识管理转变的过程中,文本信息非常关键,信息检索的重要性,由信息匮乏到信息爆炸,需要有效的检索方式传统管理软件需要嵌入IR技术在SQL数据库中已采用文本检索技术select*from Employee where Name like%Lee%.在Lotus Notes办公平台上同样也已采用文本检索技术互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求,检索无处不在,智能计算:从人机交互到内容管理,人机交互解决信息录入和呈现的问题在大量信息进入虚拟世界以后,更重要的问题在于如何对这些信息资源进行有效的管理使用户能够方便快捷地找到想要的信息使信息保值增值产生新知竞争不在于拥有多少信息,而在于能够利用多少有价值的信息,因此内容管理至关重要,信息检索系统体系结构,信息检索系统的体系结构,分词删除停用词Stemming(提取词干),为文档建立倒排索引表,根据倒排索引表检索出与提问相关的文档,将检索出的文档根据相关性排序,Query输入和文档输出相关反馈结果的可视化,对query进行变换,以改进检索结果,Web搜索,将IR技术应用于World Wide Web上的HTML网页和纯文本相比,网页的特点如下:必须通过在网上“爬行”搜集网页可以开发结构布局信息文档的更新是不可控的可以开发网页之间的链接结构,Web搜索系统,IR系统,IR的历史与现状,IR的历史,1960-70s:最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基本的布尔模型和向量空间模型Cornell University的Prof.Salton和他的学生成为这个领域的先驱,IR历史,1980s:IR技术出现在大型文档数据库中Lexis-Nexis美国LEXIS-NEXIS公司创始于1973年,其数据库内容很广,其中法规法律方面的数据库是LEXIS-NEXIS的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度Dialog目前世界上最大的联机检索检索系统之一,包括各学科数据库600多种,可查询研究动态,SCI,EI收录以及专利等情况MEDLINEMEDLINE是美国国家医学图书馆的文献数据库,IR历史,1990s:在互联网上进行对FTP文档进行搜索ArchieArchie是Internet上用来查找其标题满足特定条件的所有文档的自动搜索服务的工具。WAIS代表“广域信息服务”(Wide Area Information Service)。Wais作为Internet一项服务,是唯一由三个商业公司(Apple、Thinking Machines和Dow Jones)启动的研究计划促成的服务。,IR历史,1990s(续):在World Wide Web上进行搜索Yahoo雅虎成立于1994年,是网上最老的“分类目录”,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达36%左右。AltavistaAltaVista是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,发布于1995年;1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。,IR 历史,1990s(续):有组织地进行评测美国标准与技术研究所NIST和国防部高级研究规划局DARPA共同发起TREC,1992年开始智能推荐系统(个性化推荐,良好的互动性,适应性)RingoAmazon(亚马逊网络售书)NetPerceptions自动文本分类和聚类系统,IR 历史,2000s为Web搜索服务的链接分析Google自动信息抽取WhizbangFetchBurning Glass问答系统TREC Q/A track,近期的IR,2000s:多媒体IR图像(Image)视频(Video)声音(speech)和音频(Audio)音乐(music)跨语言检索Cross-Language IRDARPA Tides项目智能化、个性化IR,互联网发展状况,中国互联网信息中心(CNNIC)于2005年7月发布的第16次中国互联网络发展状况统计国内上网用户已达1.03亿用户经常使用的网络服务/功能:电子邮箱(91.3%)浏览新闻(79.4%)搜索引擎(64.5%)搜索引擎是用户在互联网上获取信息的最常用的方法(58.2%),IR的困难,难点所在,分析技术亟待更新,否则很难有质的突破很难获取非结构化文本的语义信息“select*from Employee where Salary 100,000”“找出所有关于公司购并的新闻”“找出所有和互联网公司购并相关的新闻”上述三个问题,一个比一个难资源检索是在非受限域(unrestricted domains)文档集上进行的很难对文档的类别事先定义或分类,难点所在(续),用户不同的用户基础提问的意图、文档的意图均很难捕获不断有新的需求提出(搜索引擎的第2维,第3维)用户的耐心不足系统网页是分布式的和相互连接的从什么地方开始搜索?信息是如何相互关联的?效率(efficiency)和效果(effectiveness)在有限的资源内,只能把效率和效果提高到有限的水平提高效率常常损失效果,反之亦然,新的资源和需求刺激新的技术突破,新的信息资源 Document-page,blog,Web image,新的媒体类型Text-image,video,speech,music,map,新的架构Plain text file-hypertext,P2P,semantic Web,新的应用Crawler,email spam filter,MP3 search,mobile search,主要的冲击已不再来自于IR技术的突破,Web 搜索的事实是怎样的?,短的query 英文:2.35 words(Altavista,1998)中文:3.55 chars(1999)偏精确率的检索用户常常浏览第一页的结果,每个查询的词数:,ReferenceAmanda Spink&Bernard J.Jansen(2004).Web Search:Public Searching of the Web.Springer.,每个用户的查询次数:,每个用户查询的网页:,可以看到:,Query,Document,Similarity,A huge number of pages with matched query termson the Web,Query=“information retrieval”,经过文本相似度计算获得的排序对于短Query有些力不从心,导致检索结果不尽人意,短 Query&检索,Query,Document,QuerySpace,DocSpace,Similarity,Query=“information retrieval”,用户需求&文档的权威性,Query,Document,QuerySpace,DocSpace,Similarity,Concept:“IR book“IR systems”,“SIGIR Web sites”,Authority:,Query=“information retrieval”,Representative IR book,传统 IR的通常包含这样的假定,Query 较长 TREC对主题(查询)描述平均15个词评价考虑精确率和召回率对前1000个返回结果计算平均精确率和召回率,多数检索系统是基于关键词的搜索,最简单的概念就是关键词在文档中逐字出现稍微严格一点的定义是:提问中的关键词在文档中频繁出现,并且不考虑顺序,基于关键词搜索存在的问题,可能找不到同义词“PRC”vs.“China”“电脑”vs.“计算机”可能检索到一些不相关的多义词“bat”(baseball vs.mammal)“Apple”(company vs.fruit)保安(地名 vs.保护安全的人员),解决方案:智能信息检索,考虑词汇的意义(meaning)考虑词汇的顺序(order)根据直接或间接的反馈适应用户的需求考虑信息来源的权威性(authority),用户体验:检索结果的呈现,检索结果的表现Web 检索结果是很长的列表,用户很难在概念层浏览结果检索结果分门别类信息进一步优化,DEF,Books,Tools,新课题检索结果聚类,检索结果聚类,检索结果聚类,从呈现形式到内容的变化聚类文档的内容整合,信息抽取美国科学家目前正在研究一种新型“搜索引擎”搜得,表示它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理信息融合单文档文摘多文档文摘,发展趋势,发展历程,以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已经退出搜索舞台。,发展历程,以Google为代表的第二代搜索引擎以超链分析技术为基础的大规模网页搜索,根据关键词的分布情况对页面进行分类和排序优点:只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把该网页查出来不足:返回的无用信息太多原因:仅采用机械的关键词匹配来实现,信息检索的目标,全:互联网数据搜索的范围更广泛准:数据定位更准确快:用户应用更简洁便利,个性化,智能化,信息检索,信息检索,数据库,并行处理,网络,信息安全,数据挖掘,自然语言处理,知识管理,操作系统,图像、视频、语音,下一代搜索引擎,由相关性检索向智能化检索过渡海量信息的存储,解析,索引应用新的搜索工具,搜索任意关联因素根据关键词所在的网块位置,自动调整网页的重要性与呈现的优先级优化查询结果由互联网搜索向互联网挖掘过渡数据挖掘,智能搜索引擎,以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等 允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务。一般包括人工智能、模式识别、语义分析、神经网络等智能搜索,新的 IR 主题,搜索行业的主题 Web搜索,移动搜索,垃圾邮件过滤,垂直搜索,元搜索,其他行业的主题 多媒体检索(Multimedia)文本挖掘(Data Mining,NLP applications)数字图书馆Digital LibrarySIGIR(情报检索专业)主题基于语言模型的信息检索,问答系统,跨语言信息检索,话题检测与跟踪,检索结果聚类,元搜索引擎-信息中介,元搜索引擎(Meta-search engine)是在前述搜索引擎基础上建立的可以同时查询多个搜索引擎的WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎元搜索就是本身并不存储网页数据,只是提供一个接口,针对用户的搜索关键字在其他搜索引擎中获取结果,再对结果进行加工处理最后将结果显示给用户.按照搜索机制划分,元搜索引擎包括并行式和串行式两类元搜索引擎依赖其他独立搜索引擎而存在,可以收到事半功倍的效果,但是会惹上官司,垂直搜索,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。,垂直搜索,Google宗旨是尽快让用户离开google,垂直搜索应该是粘住用户方式的变化,检索方法没有质的变化垂直搜索实例奇虎酷讯(KOOXOO),国内外主要搜索引擎,中国搜索引擎市场,关于搜索引擎的新闻,2003年底以前,中国搜索引擎市场的格局是:雅虎和Google都提供中文搜索服务,但没有正式进入中国。中国本土的搜索引擎服务商主要是百度、3721、中国搜索(慧聪搜索)。然而,这一切在2004年发生了彻底的变化。2003年11月21日,雅虎中国收购3721公司。3721的搜索服务成为了YHAOO中国的重要组成,YHAOO正式进军中国搜索引擎服务市场。2004年6月15日,Google与其他七家共同投资者一起,收购了有全球最大中文搜索引擎之称的百度的部分股份。Google在上市前终于有了中国搜索的概念。2004年6月21日,雅虎中国除了坚固其门户搜索、3721之外,推出了专门的中文搜索门户网站“一搜()”。2004年7月1日,微软公司董事长比尔盖茨在北京含蓄地表示,要加强MSN搜索开拓中国市场的力度。,关于搜索引擎的新闻,2005年12月,Google闪电雇佣李开复,正式进军中国。2006年3月,Yahoo!频繁变脸。目前,越来越多的专业搜索引擎。7月19日,雅虎中国、雅虎全球、阿里巴巴三方联合推出一个具有智能模糊匹配功能的搜索引擎雅虎Imatch,贴近用户的实际需求。由此可见,搜索市场一直是令人垂涎三尺高速成长的市场,新技术和新概念的出现可以随时让搜索市场发生巨大改变。正因此,百度的李彦宏常警醒员工:“百度离破产只有30天。”更多的精彩新闻等待我们发现和创造!,搜索引擎成功样例:全球最大搜索引擎Google,据预计,全球搜索市场3到5年后将达70亿美元以上,Google在各种搜索引擎中排名第一。Google网址:技术创业六年成长史创始人是两位斯坦福大学学生,而立之年即成为百亿富翁每个月有数亿人使用走向垄断?参股百度左右网民的价值取向受商业利益驱使,未来很难保证客观公正性,竞价排名,Google,其它主要英文搜索引擎,AOL AltaVista AskJeeves MSN Search LookSmart Yahoo,中文搜索引擎,百度百度网址:北大计算机系学生创办百度的“知道”北京大学李晓明教授继续研究“天网”,没有商业化天网 中搜全名“中国搜索”,原名“慧聪”搜狗新浪:爱问,搜索引擎的现状,随着百度上市和Google正式进入中国,国内搜索引擎市场竞争格局将发生变化。2005年各大搜索引擎厂商营收稳步上升,而各主流厂商的用户市场占有率分别为百度37%,Google23%,Yahoo(及3721)21%,对比各搜索引擎结果:输入“和服”,Google的检索结果排在前30位的网页绝大多数为日本的“和服”,说明Google进行了有效的分词百度基本正确搜狗基本正确,部分错误结果,1重庆“侦探”商标注册成功 邦德公司获工商认可.册范围,将原42类商品和服务商标注册扩大.2新潮实业:“亚麻”龙头 箭在弦上由于所有纺织品和服装配额都将于今年底以前完全取消,近期4元左右的低价纺织股表,分词效果不佳!,IR相关领域,相关领域-借鉴和融合,数据库管理图书和情报科学人工智能自然语言处理机器学习,数据库管理,专注于研究结构化数据,比如关系表,而不是自由文本专注于处理定义好了的查询式,如SQL查询式和数据的语义都非常清晰近来有向半结构化数据(XML)发展的趋势,和IR越来越接近,图书馆和情报科学,研究信息检索中和人类使用者相关的内容(人机交互、可视化)关心对人类知识的有效分类关心引用(citation)分析和文献计量学(bibliometrics)信息的结构化最近的数字图书馆研究使它和IR距离更近,人工智能,研究知识表示、推理和智能行为知识和查询式的形式化:一阶谓词逻辑贝叶斯网络最近在Web本体论(Ontology)和智能信息代理(Intelligent Information Agents)的研究,使它与IR更接近,从数据到知识,数据(Data)未经组织的数字、词语、声音、图像等信息(Information)以有意义的形式加以排列和处理的数据知识(Knowledge)用于生产的信息(有意义的信息)信息经过加工处理、应用于生产,才能转变成知识智慧(Wisdom)应用知识的能力,创新能力,自然语言处理,研究自然语言文本的句法、语义和语用使检索能够在意义层面而不是仅仅在关键词层面进行,自然语言处理:IR的方向,根据上下文决定 歧义词的意义:词义消歧(word sense disambiguation).识别文本中特殊的信息片断(information extraction).从文本中回答特殊的用自然语言提出的问题,词义消歧,机器学习,研究能够通过经验改进自身性能的计算系统有指导的学习(supervised learning)通过从人工标注好的训练样例中学习概念来实现对样本的自动分类无指导的学习(unsupervised learning)事先不经过的人工标注,将样本自动聚为有意义的组,机器学习:IR的方向,文本分类自动层次聚类(Yahoo)自适应/推送/推荐垃圾邮件过滤文本聚类检索结果的自动聚类自动形成层次体系信息抽取文本挖掘,信息检索的应用,数字图书馆,自动分类根据国图分类法,对文本进行自动分类自动标引自动给出文本的主题词,包括抽词标引和赋词标引两种自动文摘根据不同比例以及用户的不同需求自动编写文摘定题服务面向确定主题的情报服务个性化新闻根据用户的兴趣偏好,为用户定制新闻,内容安全,垃圾邮件过滤包括广告、黄色和反动邮件的过滤和分析垃圾短信过滤,企业商业秘密防泄露监测从企业内部发出的邮件,封杀包含企业机密的邮件聊天室和BBS监控过滤黄色话题或反动言论垃圾短信过滤,商务智能,自助呼叫中心以自动问答的方式,从企业提供的大量技术支持资料中自动获取答案,满足用户的需求减少呼叫中心的人力服务费用用户投诉信的自动分类和汇总系统将用户的投诉信自动分发给企业的不同部门去处理自动发现投诉信中的焦点问题,协助企业决策竞争情报定制关于互联网上关于竞争对手的各种情报并汇总,电子政务,首长办公系统自动汇总来自各下属部门的文件,并提取重要内容提供给领导阅读政务自动咨询系统市民通过互联网,以问答的方式咨询政府的政策和办事流程等投诉自动汇总分析系统将市民的投诉自动分类汇总,以资政府决策行政简报自动编写系统定期自动编写简报,在政府部门内交流,远程教育,自动答疑系统用户远程提问,系统根据用户的问题收集教材中的相关内容,汇总后提供给用户,学生情况调查分析根据学生的提问情况,自动分析学生的主要问题所在,以便对症下药地改进教学内容,移动计算,短信定制服务包括新闻、股市资讯等,短信汇总服务电视台或广播电台常常提供在线的短信参与活动,大量短信发送到电视台需要及时地分类汇总,以便主持人作出反应,比如概括出大多数用户最关心的问题等。,军事情报,国外军事情报的跟踪汇总重点针对国外互联网进行过滤跟踪,对重要资料进行分析汇总,辅助军事决策,国内军事情报的反泄露发现和拦截泄露军事情报的邮件隐藏于普通文本中的军事情报的过滤技术文本水印,主要研究机构,国外CMU:http:/www.cs.cmu.edu/callan/IRGroup/Stanford:UMass:国内哈工大:清华复旦:,会议,ACM SIGIR Annual International Conference on Research and Development in Information Retrieval(1978-)ACM Conference on Information Knowledge Management(CIKM)Text Retrieval Conference(TREC)全国信息检索与内容安全学术会议,期刊,ACM Transactions on Information SystemsInformation Processing and ManagementJournal of the American Society for Information ScienceJournal of DocumentationInformation SystemsInformation RetrievalKnowledge and Information Systems,参考书,Ricardo Baeza-Yates and Berthier Ribeiro-Neto,Modern Information Retrieval,Addison-Wesley.1999.W.B.Frakes and R.Baeza-Yates,Information Retrieval:Data Structures&Algorithms,Englewood Cliffs,NJ:Prentice Hall.1992.Christopher D.Manning,Prabhakar Raghavan and Hinrich Schtze,Introduction to Information Retrieval,Cambridge University Press.2007.李晓明,闫宏飞等。搜索引擎原理,技术与系统,本章小结,介绍了信息检索的定义以及与相关领域的区别与联系介绍了信息检索的体系结构介绍了信息检索的难点与发展趋势,实验室主页:,哈工大信息检索研究室,研究室主页和论坛,2007年1月1日,发布“信息检索开放实验室”网站,论坛注册用户超过5700人!,语言技术平台,目前已有国内外80余家学术机构和我实验室签署协议,共享了这个平台。,LTP平台的框架,机构信息抽取,2007年1月1日发布,人物资讯中心,存在的问题:1、关注“名人”的网站很多,特色不突出2、“人物”与“事件”混杂,主线不清楚3、仍停留在文本表层,没有信息抽取,2006年5月1日发布,本章思考,信息检索及WEB检索的架构?自己经常使用的搜索引擎有哪些优缺点?希望未来的搜索引擎具有哪些新功能?,

    注意事项

    本文(《信息检索概述》PPT课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开