欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    机器学习Chap01绪论课件.ppt

    • 资源ID:1556964       资源大小:9.01MB        全文页数:40页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    机器学习Chap01绪论课件.ppt

    机器学习导论,(2016 春季学期),一、绪 论,机器学习,机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键,机器学习,机器学习,(Machine Learning),究竟是什么东东?,看个例子,“文献筛选”的故事,C. Brodley et al., AI Magazine 2012,在“循证医学”(evidence-based medicine)中,针对特定的临床问题,先要对相关研究报告进行详尽评估,查询 PubMed 以获取,候选摘要,人工找出值得全文审读的文章,“文献筛选”的故事在一项关于婴儿和儿童残疾的研究中,美国Tufts医学中心筛选了约 33,000 篇摘要尽 管 Tufts医 学 中 心 的 专 家 效 率很高,对每篇摘要只需 30 秒钟,,但该工作仍花费了 250 小时,每项新的研究都要重复,这个麻烦的过程!需筛选的文章数在不断显著增长!,“文献筛选”的故事,为了降低昂贵的成本, Tufts医学中心引入了机器学习技术,邀请专家阅读少量摘要,,标记为“有关”或 “无关”,分类模型,对是否“有关”,进行预测,人类专家只需阅读 50 篇摘要,系统的自动筛选精度就达到 93%人类专家阅读 1,000 篇摘要,则系统的自动筛选敏感度达到 95%(人类专家以前需阅读 33,000 篇摘要才能获得此效果),决策树,神经网络,支持向量机,Boosting,贝叶斯网,,模型,训练数据,(label),训练,新数据样本(浅白, 蜷缩, 浊响, ?),?= 是类别标记未知,典型的机器学习过程使用学习算法(learning algorithm)类别标记,机器学习与数据挖掘,机器学习能做什么?,我们可能每天都,在用机器学习,权,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,20,保,留,机器学习模型搜索引擎机器学习技术正在支撑着各种搜索引擎,搜索:南京大学,例如:互联网搜索,有,器,学,习,导,论,课,程,专,保,留,权,用,所,20,16,南,京,大,学,机,例如:自动汽车驾驶,(即将改变人类生活),机器学,习,模型,方向盘旋转幅度油门幅度,刹车幅度,车载摄像头,车载雷达控制汽车美国在20世纪80年代就开始研究基于机器学习的汽车自动驾驶技术DARPA Grand Challenge 2004,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么?,小数据上就已经,很有用,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:画作鉴别,(艺术),画作鉴别(painting authentication):确定作品的真伪勃鲁盖尔(1525-1569)的作品?出自 J. Hughes et al., PNAS 2009梵高(1853-1890)的作品?出自 C. Johnson et al., IEEE-SP, 2008,机,器,学,习,导,论,20,16,南,京,大,学,课,程,专,用,所,有,权,保,留,例如:画作鉴别,(艺术),除专用技术手段外, 笔触分析(brushstroke analysis) 是 画 作 鉴定的重要工具;它旨在从视觉上判断画作中是否具有艺术家的特有“笔迹”。,该工作对专业知识要求极高- 具有较高的绘画艺术修养- 掌握画家的特定绘画习惯,只有少数专家花费很大精力才能完成分析工作!,很难同时掌握不同时期、不同流派多位画家的绘画风格!C. Johnson et al., IEEE-SP, 2008,论,课,程,专,用,所,有,权,16,南,京,大,学,20,机,器,学,习,导,保,留,例如:画作鉴别,(艺术),真迹 + 赝品,特有“笔迹”,待鉴定画作,为了降低分析成本, 机器学习技术被引入自动鉴定分类模型,Krller Mller美术馆与Cornell等大学的学者对82幅梵高真迹和6幅赝品进,行分析,自动鉴别精度达 95%,C. Johnson et al., IEEE-SP, 2008,Dartmouth学院、巴黎高师的学者对8幅勃鲁盖尔真迹和5幅赝品进行分析,,自动鉴别精度达 100%,J. Hughes et al., PNAS 2009J. Mairal et al., PAMI12,(对用户要求低、准确高效、适用范围广),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:古文献修复,(文化),古文献是进行历史研究的重要素材,但是其中很多损毁严重Dead Sea Scrolls (死海古卷)- 1947年出土- 超过30,000个羊皮纸片段Cairo Genizah- 19世纪末被发现- 超过300,000个片段- 散布于全球多家博物馆高水平专家的大量精力被用于古文献修复L. Wolf et al., IJCV 2011,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:古文献修复,(文化),一个重要问题:原书籍已经变成分散且混杂的多个书页,如何拼接相邻的书页?人工完成书页拼接十分困难- 书页数量大,且分布在多处- 部分损毁较严重,字迹模糊- 需要大量掌握古文字的专业人才近年来,古文献的数字化浪潮给自动文学修复提供了机会,所,有,权,保,留,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,例如:古文献修复,(文化),以色列特拉维夫大学的学者将机器学习用于自动的书页拼接,已确定相邻,已确定不相邻,分类模型,判断是否相邻,专家确认,相邻,在Cairo Genizah测试数据上,系统的自动判断精度超过 93%新完成约 1,000 篇Cairo Genizah文章的拼接(对比:过去整个世纪,数百人类专家只完成了几千篇文章拼接),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,机器学习能做什么?,大数据上更惊人,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),时代周刊,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),通过机器学习模型: 在总统候选人第一次辩论后,分析出哪些选民将倒戈,为每位选民找出一个最能说服他的理由 精准定位不同选民群体,建议购买冷门广告时段,广告资金效率比2008年提高14% 向奥巴马推荐,竞选后期应当在什么地方展开活动 那里有很多争取对象 借助模型帮助奥巴马筹集到创纪录的10亿美元例如:利用模型分析出,明星乔治克鲁尼(George Clooney)对于年龄在40-49岁的美西地区女性颇具吸引力,而她们恰是最愿意为和克鲁尼/奥巴马共进晚餐而掏钱的人 乔治克鲁尼为奥巴马举办的竞选筹资晚宴成功募集到1500万美元 ,导,论,课,程,专,用,学,习,20,16,南,京,大,学,机,器,所,有,权,保,留,例如:帮助奥巴马胜选,(政治),队长:Rayid Ghani卡内基梅隆大学机器学习系首任系主任Tom Mitchell教授的博士生这个团队行动保密,定期向奥巴马报送结果;被奥巴马公开称为总统竞选的“核武器按钮”(“They are our nuclear codes”),权,专,用,所,有,20,16,南,京,大,学,机,器,学,习,导,论,课,程,保,留,约翰 麦卡锡(1927-2011)“人工智能之父”,1971年图灵奖,1956年夏,美国达特茅斯学院,J. McCarthy, M. Minsky, N. Lochester, C. E. Shannon,H.A. Simon, A. Newell, A. L. Samuel 等10余人,达特茅斯会议标志着人工智能这一学科的诞生,John McCarthy (1927 - 2011):1971年获图灵奖, 1985年获IJCAI终身成就奖。人工智能之父。他提出了“人工智能”的概念,设计出函数型程序设计语言Lisp,发展了递归的概念,提出常识推理和情境演算。出生于共产党家庭,从小阅读10万个为什么,中学时自修CalTech的数学课程,17岁进入CalTech时免修两年数学,22岁在Princeton获博士学位,37岁担任Stanford大学AI实验室主任。,机器学习源自“人工智能”Artificial Intelligence (AI), 1956 -,权,程,专,用,所,有,保,16,南,京,大,20,学,机,器,学,习,导,论,课,留,赫伯特 西蒙,(1916-2001)1975年图灵奖,第一阶段:推理期1956-1960s: Logic Reasoning, 出发点:,“数学家真聪明!”, 主要成就: 自动定理证明系统 (例如,西蒙与纽厄尔的“Logic Theorist”,系统)渐渐地,研究者们意识到,仅有逻辑推理能力是不够的 阿伦 纽厄尔(1927-1992)1975年图灵奖,用,所,有,权,保,留,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专, 出发点:,“知识就是力量!”,爱德华 费根鲍姆(1936- ),1994年图灵奖 主要成就: 专家系统 (例如,费根鲍姆等人的“DENDRAL”系统)渐渐地,研究者们发现,要总结出知识再“教”给系统,实在太难了 ,第二阶段:知识期1970s -1980s: Knowledge Engineering,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留, 出发点:,“让系统自己学!”,第三阶段:学习期1990s -now: Machine Learning, 主要成就: 机器学习是作为“突破知识工程瓶颈”之利器而出现的恰好在20世纪90年代中后期,人类发现自己淹没在数据的汪洋中,对自动数据分析技术机器学习的需求日益迫切,权,专,用,所,有,16,南,京,大,学,机,器,学,保,习,导,论,留,课,程,20,汽车自动驾驶(DARPA Grand Challenge),机器学习已经“无处不在”入侵检测Web搜索生物信息学决策助手(DARPA),火星机器人 (JPL),20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,今天的“机器学,习”已经是一个广袤的学科领域,经常被谈到的“深度学习”(Deep Learning)仅是,机器学习中的一个小分支例如,这是第32届国际机器学习大会的“主题领域”2006年,美国CMU(卡内基梅隆大学)成立“机器学习系”,导,论,课,程,专,用,所,20,16,南,京,大,学,机,器,学,习,有,权,保,留,大数据时代的关键技术,奥巴马提出“大数据计划”后,美国NSF进一步加强资助UC Berkeley研究如何整合将”数据”转变为”信息”的三大关键技术机器学习、云计算、众包(crowd sourcing),整合三大关键技术,权,保,20,16,南,京,留,大,学,机,器,学,习,导,论,课,程,专,用,所,有,大数据时代,机器学习必不可少,收集、传输、存储大数据的目的,,是为了“利用”大数据,没有机器学习技术分析大数据,,“利用”无从谈起,权,有,所,习,导,论,课,程,专,用,保,20,16,南,京,大,学,机,器,学,留,基本术语,数据集; 训练, 测试示例(instance), 样例(example)样本(sample)属性(attribute), 特征(feature); 属性值属性空间, 样本空间, 输入空间特征向量(feature vector)标记空间, 输出空间,监督学习(supervised learning)无监督学习(unsupervised learning),假设(hypothesis)真相(ground-truth)学习器(learner), 分类, 回归 二分类, 多分类 正类, 反类未见样本(unseen instance)未知“分布”独立同分布(i.i.d.)泛化(generalization),权,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,保,留,假设空间,(色泽=?)(根蒂=?)(敲声=?)好瓜,学习过程 在所有假设(hypothesis)组成的空间中进行搜索的过程目标: 找到与训练集“匹配”(fit)的假设,假设空间的大小:n1 x n2 x n3 + 1,权,用,所,有,保,留,论,课,程,专,机,器,学,习,导,20,16,南,京,大,学,例如: (青绿; 蜷缩; 沉闷),应该采用哪一个模型(假设)?,版本空间版本空间(version space): 与训练集一致的假设集合浊响浊响在面临新样本时,会产生不同的输出,课,程,专,用,所,有,20,16,南,京,大,学,机,器,学,习,导,论,权,保,留,归纳偏好,(inductive bias),机器学习算法在学习过程中对某种类型假设的偏好,A更好?B更好?,一般原则:奥卡姆剃刀,(Ocams razor)任何一个有效的机器学习算法必有其偏好学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!,权,有,用,16,南,京,大,学,机,器,学,习,导,论,课,程,专,所,保,20,留,哪个算法更好?没有免费的午餐!,NFL定理:一个算法,若在某些问题上比另一个算法,好,必存在,另一些问题,,比,好。,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,NFL定理,简单起见,假设样本空间,和假设空间 离散,令,代表算法,基于训练数据 X 产生假设 h 的概率,f 代表要学的目标函数, 在训练集之外所有样本上的总误差为,考虑二分类问题,目标函数可以为任何函数,,函数空间为,,对所有可能的 f 按均匀分布对误差求和,有,权,大,学,机,器,学,习,导,论,课,程,专,用,20,16,南,京,所,有,保,留,NFL定理,总误差与学习算法无关!,所有算法一样好!,权,器,学,习,导,论,课,程,专,用,所,有,20,16,南,京,大,学,机,保,留,NFL定理的寓意,NFL定理的重要前提:,所有“问题”出现的机会相同、或所有问题同等重要,脱离具体问题,空泛地谈论“什么学习算法更好”,毫无意义 !,实际情形并非如此;我们通常只关注自己正在试图解决的问题,20,16,南,京,大,学,机,器,学,习,导,论,课,程,专,用,所,有,权,保,留,前往第二站,此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!,

    注意事项

    本文(机器学习Chap01绪论课件.ppt)为本站会员(牧羊曲112)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开