谭营机器学习研究及最新进展.ppt
《谭营机器学习研究及最新进展.ppt》由会员分享,可在线阅读,更多相关《谭营机器学习研究及最新进展.ppt(94页珍藏版)》请在三一办公上搜索。
1、2023/8/17,谭营-机器学习研究及最新进展,1,机器学习研究及最新进展,谭营 教授北京大学智能科学系视觉与听觉信息处理国家重点实验室,2023/8/17,谭营-机器学习研究及最新进展,2,目录,机器学习的定义和任务机器学习的发展历史机器学习的主要方法机器学习面临的挑战最新发展方向,题目:机器学习研究及最新进展,2023/8/17,谭营-机器学习研究及最新进展,3,学习系统基本构成,学习环节,知识库,执行环节,学习环节:感知环境,获取知识常用的学习方法机械式学习指导式学习归纳式学习类比学习,一个基于知识库的智能系统,环境,2023/8/17,谭营-机器学习研究及最新进展,4,机器学习的定义
2、,通过经验提高系统自身的性能的过程(系统自我改进)。机器学习的重要性:机器学习是人工智能的主要核心研究领域之一,也是现代智能系统的关键环节和瓶颈。很难想象:一个没有学习功能的系统是能被称为是具有智能的系统。,2023/8/17,谭营-机器学习研究及最新进展,5,入侵检测系统IDS:是否是入侵?是何种入侵?,如何检测?历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类,这是一个典型的机器学习问题常用技术:神经网络,决策树,支持向量机,贝叶斯分类器,k近邻,聚类,序列分析,免疫网络等,实例1:网络安全问题,2023/8/17,谭营-机器学习研究及最新进展,6,如何预测?
3、气象历史数据:以往的各种气象数据及其变化特点对未来一周天气的预报,这是一个典型的机器学习问题常用技术:统计多参数模型,神经网络,贝叶斯分类器,k近邻,聚类,实例2:天气预报,2023/8/17,谭营-机器学习研究及最新进展,7,实例3:搜索引擎,Google的成功,使得Internet搜索引擎成为一个新兴的产业出现有众多专营搜索引擎的公司(例如百度等专门针对中文搜索),而且Microsoft等巨头也开始投入巨资进行搜索引擎的研发,机器学习技术正在支撑着各类搜索引擎(尤其是贝叶斯学习技术),Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin提出的PageRan
4、k算法,2023/8/17,谭营-机器学习研究及最新进展,8,Application 4,2023/8/17,谭营-机器学习研究及最新进展,9,Application 4,Automatic Car DriveClass of Tasks:Learning to drive on highways from vision stereos.Knowledge:Images and steering commands recorded while observing a human driver.Performance Module:Accuracy in classification,2023/
5、8/17,谭营-机器学习研究及最新进展,10,Application 5,Learning to classify astronomical structures.,galaxy,stars,Features:Color Size Mass Temperature Luminosity,unkown,2023/8/17,谭营-机器学习研究及最新进展,11,Application 6,Classifying Astronomical ObjectsClass of Tasks:Learning to classify new objects.Knowledge:database of image
6、s with correct classification.Performance Module:Accuracy in classification,2023/8/17,谭营-机器学习研究及最新进展,12,Other Applications,Bio-Technology Protein Folding Prediction Micro-array gene expression Computer Systems Performance Prediction Banking ApplicationsCredit Applications Fraud Detection Character R
7、ecognition(US Postal Service)Web Applications Document Classification Learning User Preferences,2023/8/17,谭营-机器学习研究及最新进展,13,机器学习的任务,令W是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,我们只能获得这个世界的一个有限的子集QW,称为样本集。机器学习就是根据这个有限样本集Q,推算这个世界的模型,使得其对这个世界为真。,Q,W,Model,建模,泛化,2023/8/17,谭营-机器学习研究及最新进展,14,机器学习的三要素,(1)一致性假设:机器学习的条件
8、。(2)样本空间划分:决定模型对样本集合的有效性。(3)泛化能力:决定模型对世界的有效性。,2023/8/17,谭营-机器学习研究及最新进展,15,要素1:一致性假设,假设世界W与样本集Q具有某种相同的性质。原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:W与Q具有同分布。或,给定世界W的所有对象独立同分布。,2023/8/17,谭营-机器学习研究及最新进展,16,要素2:对样本空间的划分,样本集合模型:将样本集放到一个n维空间,寻找一个超平面(等价关系),使得问题决定的不同对象被划分在不相交的区域。,2023/8/17,谭营-机器学习研究及最新进展,17,要素3:泛化能力,通过机
9、器学习方法,从给定有限样本集合计算一个模型,泛化能力是这个模型对世界为真程度的指标。,2023/8/17,谭营-机器学习研究及最新进展,18,关于三要素,不同时期,研究的侧重点不同划分:早期研究主要集中在该要素上泛化能力(在多项式划分):80年代以来的近期研究一致性假设:未来必须考虑,2023/8/17,谭营-机器学习研究及最新进展,19,机器学习是多学科交叉,机器学习,统计学,人工智能,哲学,信息论,生物学,计算复杂性,数学,认知科学,控制论,其他学科,应用领域,2023/8/17,谭营-机器学习研究及最新进展,20,THE QUESTIONS-The Top 25,What Is the
10、Universe Made Of?What is the Biological Basis of Consciousness?Why Do Humans Have So Few Genes?To What Extent Are Genetic Variation and Personal Health Linked?Can the Laws of Physics Be Unified?How Much Can Human Life Span Be Extended?What Controls Organ Regeneration?How Can a Skin Cell Become a Ner
11、ve Cell?How Does a Single Somatic Cell Become a Whole Plant?How Does Earths Interior Work?Are We Alone in the Universe?How and Where Did Life on Earth Arise?What Determines Species Diversity?What Genetic Changes Made Us Uniquely Human?How Are Memories Stored and Retrieved?How Did Cooperative Behavio
12、r Evolve?.,http:/www.sciencemag.org/sciext/125th/,On 25 big questions facing science over the next quarter-century.(1 July 2005),2023/8/17,谭营-机器学习研究及最新进展,21,记忆的模型与过程,记忆的模型与过程通常包括三个相互联系的阶段:1、编码(encoding),2、存储(storage)3、提取(retrieval),记忆的模型,2023/8/17,谭营-机器学习研究及最新进展,22,工作记忆(Working Memory),工作记忆系统能同时储存和加
13、工信息,这和短时记忆概念仅强调储存功能是不同的。工作记忆分成:中枢执行系统、视空初步加工系统和语音环路。工作记忆与语言理解能力、注意力及推理能力等联系紧密,工作记忆蕴藏智能的玄机。,2023/8/17,谭营-机器学习研究及最新进展,23,Working Memory Model,2023/8/17,谭营-机器学习研究及最新进展,24,机器学习的分支,数据挖掘:利用历史数据来改进决策例如:医学记录 医学知识软件应用(不能手工编程的应用)汽车自动驾驶语音识别 等自用户化程序新闻阅读器学习用户的阅读兴趣。,返回,2023/8/17,谭营-机器学习研究及最新进展,25,机器学习早期研究,Rosenbl
14、att的感知机(1956)。Widrow的Madline(1960)。Samuel的符号机器学习(1965)。Minsky的“Perceptron”著作(1969,1988)。,2023/8/17,谭营-机器学习研究及最新进展,26,Perceptrons,Devised by Frank Rosenblatt in the late 1950sA single-layer network where all inputs and activation values are either 0 or 1,and the weights are real valuedActivation func
15、tion is a simple linear threshold1 if xiwi t0 otherwiseSupervised learning,perceptron changes weights based on correct resultsIf output is correct,do nothingIf output is 0 and should be 1,increment weights on the active lines(input of 1)by some amount d.If output is 1 and should be 0,decrement weigh
16、ts on the active lines by some amount d.,2023/8/17,谭营-机器学习研究及最新进展,27,Limits of Perceptrons,Single-layer networks are only capable of learning classes that are linearly separableFor example,exclusive-or is not linearly separable,and thus cannot be represented by a perceptronFor any n-dimensional spac
17、e,a classification is linearly separable if these groups can be separated with a single n-1 dimensional hyperplane,2023/8/17,谭营-机器学习研究及最新进展,28,二十世纪八十年代的研究,符号机器学习取得进展。神经网络的研究。计算学习理论-PAC(概率近似正确)。,2023/8/17,谭营-机器学习研究及最新进展,29,两类最重要的符号机器学习算法,覆盖算法与分治算法。七十年代末,Michalski基于带等号的逻辑演算,提出了AQ11算法,称为符号机器学习的覆盖算法。198
18、6年,Quinlan提出了决策树算法,也称为分治算法(树结构表示的最早研究是CLS,概念学习系统)。,2023/8/17,谭营-机器学习研究及最新进展,30,神经网络,Hopfield模型。Kohonen模型。Goldberg的ART模型。最有影响的是Remulhart等人提出的BP算法(1986)。,2023/8/17,谭营-机器学习研究及最新进展,31,计算学习理论,1984年,Valiant提出机器学习应该以模型概率近似正确(1-)为指标,而不是以概率为1为指标。学习算法必须对样本集合的规模呈多项式。统计机器学习、集成机器学习等方法的理论基础。,2023/8/17,谭营-机器学习研究及最
19、新进展,32,机器学习 学科,1983年,R.S.Michalski等人撰写机器学习:通往人工智能的途径一书1986年,Machine Learning杂志创刊1997年以Tom Mitchell的经典教科书(McGraw Hill Press,1997)中都没有贯穿始终的基础体系,只不个是不同方法和技术的罗列机器学习还非常年轻、很不成熟,返回,2023/8/17,谭营-机器学习研究及最新进展,33,机器学习的主要方法,传统分类归纳机器学习解释机器学习遗传机器学习连接机器学习现代分类(1997年,Dietterich)符号机器学习。统计机器学习。集成机器学习。增强机器学习。,2023/8/17
20、,谭营-机器学习研究及最新进展,34,学习方法的传统分类,传统上,大致可分为4类:归纳学习解释学习遗传学习连接学习,2023/8/17,谭营-机器学习研究及最新进展,35,归纳学习,是从某一概念的分类例子集出发归纳出一般的概念描述。这是目前研究得最多的学习方法,其学习目的是为了获得新的概念、构造新的规则或发现新的理论。这种方法要求大量的训练例,而且归纳性能受到描述语言、概念类型、信噪比、实例空间分布、归纳模式等的影响。包括:有变型(版本)空间、决策树方法、AQ11算法,一阶Horn子句等,2023/8/17,谭营-机器学习研究及最新进展,36,解释学习,解释学习(分析学习)是从完善的领域理论出
21、发演绎出有助于更有效地利用领域理论的规则。其学习目的是提高系统性能,而不是修改领域理论。它与归纳学习相反,只需要少量的训练例,但要求有完善的领域理论,而且学习效果也与例子表示形式、学习方法(正例学习或反例学习)、概括程度等有关。,2023/8/17,谭营-机器学习研究及最新进展,37,遗传学习,是通过模拟自然界遗传与变异机制,利用进化论的自然选择原理进行分类和优化。优点:可以使一些用传统的精确的符号方法无法解决的问题变得易解缺点:在学习过程中会产生大量数据,如何对这些数据进行挑选和记忆?,2023/8/17,谭营-机器学习研究及最新进展,38,连接学习,通过以某种形式连接的大量神经元根据训练模
22、式集调整连接和阈值进行学习,这种学习方式就是通常所说的人工神经网络学习,也称为“并行分布式学习”,其出发点是著名的MP模型。该方法在50、60年代陷入沉寂,但在80年代解决TSP问题后得到复兴(BP,HNN,etc.)。这得益于隐结点的使用使其突破了早期Perceptron的限制。优点:在模式识别、语音处理等许多方面已得到成功应用。缺点:难以处理高层次的符号信息,使得应用范围受到了限制。,返回,2023/8/17,谭营-机器学习研究及最新进展,39,机器学习方法的现代分类,1997年,Dietterich的分类符号机器学习统计机器学习集成机器学习增强机器学习,返回,2023/8/17,谭营-机
23、器学习研究及最新进展,40,符号机器学习,1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习。1967年Gold证明,这是不可能的实现的。Samuel将分段划分引入对符号域的数据处理,形成了一类基于符号数据集合的约简算法,这是现代符号机器学习的基础。约简:规则长度越短,覆盖对象越多,但是,不能增加对象矛盾。,2023/8/17,谭营-机器学习研究及最新进展,41,符号机器学习的基础-划分,机器学习的本质是对样本空间的划分。这需要定义一个等价关系,将样本空间划分为等价类。,2023/8/17,谭营-机器学习研究及最新进展,42,符号机器学习的等价关系,定义在给定符号对象集合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 研究 最新进展
链接地址:https://www.31ppt.com/p-5762867.html