现代信息检索技术.ppt
《现代信息检索技术.ppt》由会员分享,可在线阅读,更多相关《现代信息检索技术.ppt(58页珍藏版)》请在三一办公上搜索。
1、第0讲 课程简介About the course,2011/9/14,提纲,2,什么是信息检索?为什么要学习信息检索?课程情况,提纲,3,什么是信息检索?为什么要学习信息检索?课程情况,从几个互联网应用说起,4,搜索引擎,中科院研究生院2011年度秋季课程,5,中科院研究生院2011年度秋季课程,6,中科院研究生院2011年度秋季课程,7,三个应用例子的共同特征,给定需求(或者是对象),从信息库中找出与之最匹配的信息(或对象)Google的例子:需求“现代信息检索”卓越-亚马逊的例子:对象“天王表-石英女表LS3522S(黑色)”世纪佳缘网的例子:对象“你自己”!,8,信息检索,给定用户需求返
2、回满足该需求信息的一门学科。通常涉及信息的获取、存储、组织和访问。从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。“找对象”的学科,即定义并计算某种匹配“相似度”的学科。,9,信息检索技术的应用,10,搜索,推荐,挖掘,IR技术,情报处理,内容安全,舆情分析,信息检索应用系统,搜索系统Web搜索引擎IBM Waston问答系统推荐系统淘宝网豆瓣网当当网,11,从信息规模上分类,个人信息检索:个人相关信息的组织、整理、搜索等。桌面搜索(Desktop Search)、个人信息管理(PIM=Personal Information M
3、anagement)、个人数字记忆(Personal Digital Memory)企业级信息检索:在企业内容文档的组织、管理、搜索等。内容管理(Content Management)Web信息检索:在超大规模数据集上的检索。,中科院研究生院2011年度秋季课程,12,提纲,中科院研究生院2011年度秋季课程,13,什么是信息检索?为什么要学习信息检索?课程情况,市场发展的需求,用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、S
4、ohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?,14,几个应用需求,移动搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销,15,对相关专业研究生的基本要求,信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信
5、息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次(个人观点),16,中科院研究生院2011年度秋季课程,17,应用层次:搜索是一项非常重要的应用!,中科院研究生院2011年度秋季课程,18,中间层次:搜索是极其重要的API,中科院研究生院2011年度秋季课程,19,中科院研究生院2011年度秋季课程,20,介绍一本有趣的书!,中科院研究生院2011年度秋季课程,21,核心层次:搜索是未来操作系统的重要组成部分!,提纲,22,什么是信息检索?为什么要学习信息检索?课程情况,课程的宗旨,信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法)信息检索系统的基本实现方
6、法如何进行(信息检索)研究选题、查找文献、读论文、做实验、写论文、作报告等等,23,老师介绍(1),主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。http:/新浪微博:计算所王斌http:/,24,老师介绍(2),助教:,中科院研究生院2011年度秋季课程,25,本课程的特点,不是教学生学怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。知其然知其所以然。基本原理+广泛实践,26,授课内容简介(传统角度总结),信息检索的基本概念信息检索的评价信息检索模型和算法模型
7、(布尔模型、向量模型、概率模型、语言模型)相关反馈、查询扩展文本处理技术文本分类和聚类技术(倾向性分析)信息过滤技术信息组织和索引并行和分布式检索信息检索的应用WEB检索,27,授课方案,课堂讲述和课后练习相结合讲授内容既包含传统内容,也注意吸收最新研究成果学术内容和业界进展相结合既考虑一般学生普及入门的需求,也考虑相关专业学生更高的要求尽量用简单而风趣的语言、形象而逼真的例子进行讲授,28,课程基础,数学基础概率统计线性代数计算机基础算法和数据结构编程,29,考核方式,平时作业+期末考试(开卷)不定期考勤 5%若干小作业 15%1个大作业 30%1篇读书报告 15%(论文阅读)期末考试 35
8、%(课堂开卷)具体参考课程网站,30,2006年选课情况分析,来自13个不同培养单位的62名学生选择本课程,其中计算所25人、软件所13人、自动化所5人 计算机类专业有48人(占总数的77.4%),图书情报类专业学生有7人(占总数的11.3%),其他专业背景的学生7人(占总数的11.3%)。,31,2006年考试结果分析,32,2007年选课情况分析,来自12个单位的71人选择该课程,其中计算所30人、网络中心8人、院图7人、软件所和自动化所各6人、其他单位14人。计算机类(计算机、自动化)专业58人(占总数的81.7%)、图书情报类专业9人(占总数的12.7%)、其他专业(信号处理、数学等)
9、4人(占总数的5.6%),33,2007考试结果分析,34,2008/2009/2010?,35,国际著名研究机构和代表人物,美国康奈尔大学 Salton(1927-1995)现代信息检索的奠基人,倡导向量空间模型SMART的完成人第一任Salton奖(1983年)得主,ACM Fellow英国剑桥大学 Sparck Jones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和1988年Salton奖,36,国际著名研究机构和代表人物,微软英国剑桥研究院、伦敦城市大学 Robertson概率检索模型的先驱和倡导者开发了OKAPI检索系统2000年Salto
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 信息 检索 技术

链接地址:https://www.31ppt.com/p-5999504.html