机器学习及其应用ppt课件.ppt
《机器学习及其应用ppt课件.ppt》由会员分享,可在线阅读,更多相关《机器学习及其应用ppt课件.ppt(28页珍藏版)》请在三一办公上搜索。
1、机器学习及其应用黄大威2014年5月,机器学习是新兴学科演化的产物机器学习的主要内容机器学习的基本方法机器学习的应用中医脉诊金融时间序列总结,天下大势,合久必分,分久必合。,自然哲学(前科学),数学,物理,化学,西医,中医,算学,历法,西方,中国,农业工业,概率,统计,信息时代是一个需要和产生通才的时代。机器学习是需要和培养通才的领域。,生物物理,生物化学,生物,统计机器学习,机器学习演化及联系,凡是从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法都在机器学习的研究范围中。无论是获得规律,还是利用规律做预测,主要对象是随机现象,因此统计方法是机器学习的主要工具。然而,作为交叉学科,
2、与信息论,计算机科学及它们衍生的应用学科都有关联;作为研究和使用规律的学科,机器学习比这些应用学科研究对象(如数据挖掘)更广。反过来,由于信息及计算机科学与应用方面的参与,机器学习也创造了很多新方法,促进了统计的发展。,概率论,统计,信息论,数字信号处理通讯,计算机科学,神经元网络,人工智能,数据挖掘,机器学习,统计机器学习:实践与理论的互动循环,抽象思维的演绎能力使人类得以构建理论王国。她是有用的,在信息时代也是客观存在的。建于0-1逻辑及存储基础上的计算机就是一个严格的理论世界。各种软件都是基于0-1逻辑基础上演绎出来的。演绎的结果是否正确,取决于前提假设。正确的假设只能从实际中归纳出来。
3、假设是否正确,可由她演绎出来的结果与实际是否相符来检验。机器学习既能帮我们从数据中归纳出假设(无监督学习),也能帮我们在数据和假设的基础上演绎出数学模型来(有监督学习)。同时,她在建模的过程中就强调验证,用验证来选择模型。模型最终是否正确,还要新数据来检验。,归纳,数据,假设,数学模型,验证,机器学习仍旧需要假设,但它又时时对所做假设抱有怀疑态度,在建模中就不断用数据检验,最终以是否符合新的数据为标准。,机器学习大观,无监督学习,有监督学习,增强学习,数据展示画图聚类(cluster)主元素分析,我们教机器学习,机器帮我们学习,回归与分类(classification)最小二乘,k近邻法岭回归
4、,Lasso交叉验证,Bootstrap树状图,AdaBoost 随机森林神经元网络,考虑效果与控制,规划,方法介绍1:最小二乘与K近邻法,最小二乘源于统计,是线性模型在高斯白噪声情况下均方误差意义最优解,在很一般性质噪声情况下也有相容解。K近邻法源于工程,但广泛条件下它收敛于条件期望,后者是最小均方误差意义下的最优估计。两种方法均用于机器学习,优劣不可一概而论。一般而言,最小二乘适用于简单问题, K近邻法适用于复杂问题。,方法介绍2:线性模型估计与认证,传统统计主要用最小二乘做参数估计;机器学习介绍了Ridge及Lasso等收缩估计以避免过拟合,具有鲁棒性。传统统计对变量选取有大量研究,如t
5、-或F-检验,逐步回归;较近代有AIC,BIC,MDL等。机器学习更多使用交叉认证及Bootstrap,但也不排除使用前述方法。,交叉认证,传统统计得到估计量后常研究它对真实参数的收敛性;机器学习往往不假定真实模型的存在。个人看法:应假定随尺度而变的近似模型。,方法介绍3:决策树,在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。例子:根据属性X1和X2对对象Y分类:Y=1超重,Y=2正常, X1 为饭量, X2为运动量。,决策树,超重,正常,正常,超重,实例:检测垃圾邮件,From “The elements of statistical learning”
6、by Hastie etc.,建树方法选择垃圾邮件中最可能出现的关键字符,例如$,hp,!,.根据历史数据中这些字符在垃圾邮件和正常邮件中出现的频率,制定相应规则(rule):当该字符出现频率大于(或小于)某个值,就认为该邮件是垃圾或正常邮件。决策树由一系列规则串联组成,形成一个倒垂的树状结构。要点如何选择关键字符?如何选择变量和阈值?树延伸到何处停止?常用算法CART(Classification and Regression Tree), ID3, C4.5, C5.0,方法创新:主元素纯洁树 PPT,结构:二元树,数据分为目标T与 背景B。规则:用主元素分析的方法在有监督学习中分步剔除B
7、。选择:用主元素法选取能最大限度剔除B的自变量(参数、属性)组合。检验:用预留数据检查树的效能,决定树的修剪和停止。软决策:用近邻法给出各个样本属于T类的概率估计。,Root,B,B+T,B,B+T,B,B+T,Make Tree: Training,Root,B+T,B+T,B+T,B+T,B+T,B+T,Test and Use Tree: Testing,T,我个人应用机器学习的一点经验,基于脉博信号的中医诊断数据模型特征信息提取数据展示(无监督学习)分类算法(有监督学习)软件演示金融时间序列分析问题的数学与统计表述数据展示(无监督学习)分类算法(有监督学习)软件演示,如何用机器学习方法
8、来从无确定性基本规律的现象中做科学的归纳和演绎?,基于脉博信号的中医诊断数据模型,对大量不同人群用脉诊仪对脉搏信号取样,数字化后输入计算机用计算机从脉搏信号中提取属性,包括脉数(脉搏跳动次数)及左右手寸关尺六部的脉位、脉力、各谐波的能量和相位等等,共193个参数用我们开发的实现PPT算法的软件平台,从这些参数中提取有用信息来判断是否是正常人?高血压?肝硬化?妊娠?等等。软件随机选取80%的样本建模,20%用于测试。,中医诊脉方法简介,脉诊的起源可追溯到公元前七世纪之前。 “至今天下言脉者,由扁鹊也。” 史记遵循中医“人体是一个由经络相连的整体”以及天人合一的观点,通过“师承授受”的教育模式,逐
9、步发展为以形象口诀(如盘走珠,如按葱管,)为特征的28脉理论。,BC300,AD200,AD1400,AD1700,从三部九候到独取寸口,已有脉象数据分析方法:时间域费兆馥等编著的“现代中医脉诊学”人民卫生出版社06年1月版,图2.5.2-2脉图的幅值和时值h1: 主波幅值;h3: 重搏前波幅值;h4: 降中峡幅值;h5: 重搏波幅值;t1: 急性射血期时值;t4: 收缩期时值;t5: 舒张期时值;t: 脉动周期时值;W: 主脉在h1上1/3处的时值等。,28脉及其像图、传感器及计算机系统、实验研究、临床研究,重博波,潮波,主波,单个脉象周期的特征参数提取,对划分后的周期信号减去均值后,根据它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 及其 应用 ppt 课件
链接地址:https://www.31ppt.com/p-1342265.html