第七章互联网应用技术概论.ppt
《第七章互联网应用技术概论.ppt》由会员分享,可在线阅读,更多相关《第七章互联网应用技术概论.ppt(60页珍藏版)》请在三一办公上搜索。
1、北京大学软件与微电子学院2009度课程,1,第七章 互联网应用技术概述,2010年11月,北京大学软件与微电子学院2009度课程,2,自我介绍,主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,ACM、IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,中文信息学报编委。http:/办公电话:62601350,北京大学软件与微电子学院2009度课程,3,提纲,互联网应用的例子
2、基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,北京大学软件与微电子学院2009度课程,4,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,北京大学软件与微电子学院2009度课程,5,搜索引擎,搜索,推荐,推荐,北京大学软件与微电子学院2009度课程,6,更多的搜索引擎,北京大学软件与微电子学院2009度课程,7,Google Killer?,2009-05-18推出,2008-07-28推出,北京大学软件与微电子学院2009度课程,8,Email,搜索,分类,北京大学软件与微电子学院2009度课程,
3、9,Email,分类,搜索,推荐,北京大学软件与微电子学院2009度课程,10,分类目录,搜索,分类,北京大学软件与微电子学院2009度课程,11,电子商务,推荐,北京大学软件与微电子学院2009度课程,12,BBS,推荐,搜索,北京大学软件与微电子学院2009度课程,13,社区网站-豆瓣网,推荐,推荐,搜索,北京大学软件与微电子学院2009度课程,14,社区网站-校内网,北京大学软件与微电子学院2009度课程,15,博客,推荐,北京大学软件与微电子学院2009度课程,16,以上应用的共同特征,基于内容的应用内容是互联网应用的生命线包括几个主要共同的技术搜索分类/聚类过滤/推荐,北京大学软件与
4、微电子学院2009度课程,17,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,北京大学软件与微电子学院2009度课程,18,搜索(Search),搜索:从大量文档(Document)集合(Collection)中根据用户的需求(User Information Need)返回相关(Relevant)文档集合并排序(Ranking)的应用。主要特点:用户的需求动态变化,文档集合相对静态事先下载,事先组织,在线搜索应用例子:搜索引擎站内搜索,北京大学软件与微电子学院2009度课程,19,搜索技术,信息的获取技术信息的组织和整理技术相关度计
5、算和排序技术结果呈现技术相关反馈、查询扩展技术搜索的评估,北京大学软件与微电子学院2009度课程,20,搜索系统的组成框架,文档集合,管理器,索引,文档表示,查询处理,查找,排序,排序文档,用户反馈,文本处理,用户界面,结果文档,查询,文本,查询表示,爬虫,Internet,北京大学软件与微电子学院2009度课程,21,信息分类(Classification),信息分类:根据已有的类别体系(如:体育、经济、军事)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习主要特点:类别体系静态,但是需要分类的文档动态变化事先训练,在线分类需要大量训练文档集合应用例子:
6、垃圾邮件/网页分类,北京大学软件与微电子学院2009度课程,22,北京大学软件与微电子学院2009度课程,23,信息聚类(Clustering),聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习主要特点:事先无类别体系需要事后进行解释应用例子:检索结果聚类话题发现,北京大学软件与微电子学院2009度课程,24,北京大学软件与微电子学院2009度课程,25,文本分类系统的组成框架,文本表示,训练过程,分类过程,训练文本,统计,统计量,特征表示,学习,分类器,新文本,特征表示,类别,北京大学软件与微电子学院2009度课程,26,信息过滤,信息过滤:从动态的信息流中将满足用户兴趣的信息挑选
7、出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。主要特点:用户兴趣静态,数据动态对用户兴趣建模应用例子:广告推荐/商品推荐,北京大学软件与微电子学院2009度课程,27,信息过滤系统的组成框架,(d)学习器,用户,信息提供者,(b)过滤器,(a)数据分析器,(c)用户建模,更新,反馈,相关数据项,数据表示项,数据项,个人信息,用户模型,北京大学软件与微电子学院2009度课程,28,提纲,互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法,北京大学软件与微电子学院2009度课程,29,考核方法,技术专题讨论(20%)学生分小组,选定一
8、技术专题,共同读资料学习技术,并在课上交流。阅读(30%)阅读1篇论文SIGIR2008/2009,针对每篇文章写出至少阅读报告(含评论)评论要有自己的见解,不要简单翻译原文的摘要和结论评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作课程项目(50%)2到3名同学一组完成可以演示的具有一定创新的课堂项目可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。,北京大学软件与微电子学院2009度课程,30,论文阅读,ACM SIGIR Conference,北京大学软件与微电子学院2009度课程,31,课程项目,(一)、检索型:(1
9、)垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。(2)论文搜索:下载全部SIGIR论文,实现对论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。(3)桌面搜索:能够实现本机PPT文件的抽取及搜索,不少于1000篇PPT文件。能够自动抽取PPT的标题、目录等信息。,北京大学软件与微电子学院2009度课程,32,课程项目(续),(二)、文本分类型:(1)文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)
10、。能够实现新的网页的分类。(2)文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价格、味道、环境三个方面)是褒还是贬。(3)层次分类:Pascal Challenge on Large Scale Hierarchical Text Classification,http:/lshtc.iit.demokritos.gr/node/1。提交Short Paper。时间表:Start of testing:July 10,2009.End of testing,submission of executables:Novem
11、ber 16,2009.End of scalability test and announcement of results:December 14,2009.Submission of short papers:December 21,2009.,北京大学软件与微电子学院2009度课程,33,课程项目(续),(三)、其他型:(1)、问答系统:实现奥运知识的问答系统。奥运知识不少于1万条语句或记录。(2)、歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于200个。(3)广告搜索:搜集不少于1000个广告,实现对它们的搜索,搜索时不止是关键词匹配。(四)、自选型:学生可以自行设
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 互联网 应用技术 概论
链接地址:https://www.31ppt.com/p-2842837.html