机器学习Chap01绪论课件.ppt
《机器学习Chap01绪论课件.ppt》由会员分享,可在线阅读,更多相关《机器学习Chap01绪论课件.ppt(40页珍藏版)》请在三一办公上搜索。
1、机器学习导论,(2016 春季学期),一、绪 论,机器学习,机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键,机器学习,机器学习,(Machine Learning),究竟是什么东东?,看个例子,“文献筛选”的故事,C. Brodley et al., AI Magazine 2012,在“循证医学”(evidence-based medicine)中,针对特定的临床问题,先要对相关研究报告进行详尽评估,查询 PubMed 以获取,候选摘要,人工找出值得全文审读的文章,“文献筛选”的故事在一项关于婴儿和儿童残疾的研究中,美国Tufts医学中心筛选了约 33,000 篇摘要尽 管
2、 Tufts医 学 中 心 的 专 家 效 率很高,对每篇摘要只需 30 秒钟,,但该工作仍花费了 250 小时,每项新的研究都要重复,这个麻烦的过程!需筛选的文章数在不断显著增长!,“文献筛选”的故事,为了降低昂贵的成本, Tufts医学中心引入了机器学习技术,邀请专家阅读少量摘要,,标记为“有关”或 “无关”,分类模型,对是否“有关”,进行预测,人类专家只需阅读 50 篇摘要,系统的自动筛选精度就达到 93%人类专家阅读 1,000 篇摘要,则系统的自动筛选敏感度达到 95%(人类专家以前需阅读 33,000 篇摘要才能获得此效果),决策树,神经网络,支持向量机,Boosting,贝叶斯网
3、,,模型,训练数据,(label),训练,新数据样本(浅白, 蜷缩, 浊响, ?),?= 是类别标记未知,典型的机器学习过程使用学习算法(learning algorithm)类别标记,机器学习与数据挖掘,机器学习能做什么?,我们可能每天都,在用机器学习,权,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,20,保,留,机器学习模型搜索引擎机器学习技术正在支撑着各种搜索引擎,搜索:南京大学,例如:互联网搜索,有,器,学,习,导,论,课,程,专,保,留,权,用,所,20,16,南,京,大,学,机,例如:自动汽车驾驶,(即将改变人类生活),机器学,习,模型,方向盘旋转幅度油门
4、幅度,刹车幅度,车载摄像头,车载雷达控制汽车美国在20世纪80年代就开始研究基于机器学习的汽车自动驾驶技术DARPA Grand Challenge 2004,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么?,小数据上就已经,很有用,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:画作鉴别,(艺术),画作鉴别(painting authentication):确定作品的真伪勃鲁盖尔(1525-1569)的作品?出自 J. Hughes et al., PNAS 2009梵高(1853-189
5、0)的作品?出自 C. Johnson et al., IEEE-SP, 2008,机,器,学,习,导,论,20,16,南,京,大,学,课,程,专,用,所,有,权,保,留,例如:画作鉴别,(艺术),除专用技术手段外, 笔触分析(brushstroke analysis) 是 画 作 鉴定的重要工具;它旨在从视觉上判断画作中是否具有艺术家的特有“笔迹”。,该工作对专业知识要求极高- 具有较高的绘画艺术修养- 掌握画家的特定绘画习惯,只有少数专家花费很大精力才能完成分析工作!,很难同时掌握不同时期、不同流派多位画家的绘画风格!C. Johnson et al., IEEE-SP, 2008,论,课
6、,程,专,用,所,有,权,16,南,京,大,学,20,机,器,学,习,导,保,留,例如:画作鉴别,(艺术),真迹 + 赝品,特有“笔迹”,待鉴定画作,为了降低分析成本, 机器学习技术被引入自动鉴定分类模型,Krller Mller美术馆与Cornell等大学的学者对82幅梵高真迹和6幅赝品进,行分析,自动鉴别精度达 95%,C. Johnson et al., IEEE-SP, 2008,Dartmouth学院、巴黎高师的学者对8幅勃鲁盖尔真迹和5幅赝品进行分析,,自动鉴别精度达 100%,J. Hughes et al., PNAS 2009J. Mairal et al., PAMI12,
7、(对用户要求低、准确高效、适用范围广),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:古文献修复,(文化),古文献是进行历史研究的重要素材,但是其中很多损毁严重Dead Sea Scrolls (死海古卷)- 1947年出土- 超过30,000个羊皮纸片段Cairo Genizah- 19世纪末被发现- 超过300,000个片段- 散布于全球多家博物馆高水平专家的大量精力被用于古文献修复L. Wolf et al., IJCV 2011,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:古文献修复,(文
8、化),一个重要问题:原书籍已经变成分散且混杂的多个书页,如何拼接相邻的书页?人工完成书页拼接十分困难- 书页数量大,且分布在多处- 部分损毁较严重,字迹模糊- 需要大量掌握古文字的专业人才近年来,古文献的数字化浪潮给自动文学修复提供了机会,所,有,权,保,留,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,例如:古文献修复,(文化),以色列特拉维夫大学的学者将机器学习用于自动的书页拼接,已确定相邻,已确定不相邻,分类模型,判断是否相邻,专家确认,相邻,在Cairo Genizah测试数据上,系统的自动判断精度超过 93%新完成约 1,000 篇Cairo Genizah文章
9、的拼接(对比:过去整个世纪,数百人类专家只完成了几千篇文章拼接),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么?,大数据上更惊人,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),时代周刊,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),通过机器学习模型: 在总统候选人第一次辩论后,分析出哪些选民将倒戈,为每位选民找出一个最能说服他的理由 精准定位不同选民群体,建议购买冷门广告时段,广告资金效率
10、比2008年提高14% 向奥巴马推荐,竞选后期应当在什么地方展开活动 那里有很多争取对象 借助模型帮助奥巴马筹集到创纪录的10亿美元例如:利用模型分析出,明星乔治克鲁尼(George Clooney)对于年龄在40-49岁的美西地区女性颇具吸引力,而她们恰是最愿意为和克鲁尼/奥巴马共进晚餐而掏钱的人 乔治克鲁尼为奥巴马举办的竞选筹资晚宴成功募集到1500万美元 ,导,论,课,程,专,用,学,习,20,16,南,京,大,学,机,器,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),队长:Rayid Ghani卡内基梅隆大学机器学习系首任系主任Tom Mitchell教授的博士生这个团队行动保密
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 Chap01 绪论 课件
链接地址:https://www.31ppt.com/p-1556964.html