《机器学习入门》PPT课件.ppt
机器学习的技术分享和讨论,长沙爱财网络科技 李剑,什么是机器学习,什么是机器学习 机器通过分析大量数据来进行学习,不需要编程而从而归纳和识别特定的目标。重在发现数据之间内在的模式(相关性),并做出预测。机器学习与人工智能的关系 机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。深度学习是机器学习的一个子集,现在兴起的人工智能主要是大规模的深度学习。,人工智能的五大流派,符号主义:使用符号、规则和逻辑来表征知识和进行逻辑 推理,代表的算法是:规则和决策树贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,主要算法是:神经网络进化主义:生成变化,然后为特定目标获取其中最优的,代表的算法是:遗传算法Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要偏离),代表的算法是:支持向量机,人工智能的发展历程,1980 年代-主导流派:符号主义-架构:服务器或大型机-主导理论:知识工程-基本决策逻辑:决策支持系统,实用性有限1990 年代到 2000 年-主导流派:贝叶斯-架构:小型服务器集群-主导理论:概率论-分类:可扩展的比较或对比,对许多任务都足够好了,语音识别2010 年代早期到中期-主导流派:联结主义-架构:大型服务器+GPU+云计算-主导理论:神经科学和概率-识别:更加精准的图像和声音识别、翻译、情绪分析等,未来的人工智能的发展预测,2010 年代末期-主导流派:联结主义+符号主义-架构:许多云-主导理论:记忆神经网络、大规模集成、基于知识的推理-简单的问答:范围狭窄的、领域特定的知识共享2020 年代+-主导流派:联结主义+符号主义+贝叶斯+-架构:云计算和雾计算主导理论:感知的时候有网络,推理和工作的时候有规则简单感知、推理和行动:有限制的自动化或人机交互2040 年代+主导流派:算法融合架构:无处不在的服务器主导理论:最佳组合的元学习感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答,机器学习的通用步骤,选择数据:将你的数据分成三组:训练数据、验证数据和测试数据(训练效果,验证效果,泛化效果)数据建模:使用训练数据来构建使用相关特征的模型(特征:对分类或者回归结果有影响的数据属性,例如,表的字段)特征工程。训练模型:使用你的特征数据接入你的算法模型,来确定算法模型的类型,参数等。测试模型:使用你的测试数据检查被训练并验证的模型的表现(模型的评价标准 准确率,精确率,召回率等)使用模型:使用完全训练好的模型在新数据上做预测调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现,机器学习的位置,传统编程:软件工程师编写程序来解决问题。首先存在一些数据为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做计算机遵照这一流程执行,然后得出结果统计学:分析并比较变量之间的关系机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。该计算可学习识别数据中的关系、趋势和模式智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据,机器学习的分类,1、监督式学习工作机制:用有正确答案的数据来训练算法进行机器学习。代表算法:回归、决策树、随机森林、K 近邻算法、逻辑回归,支持向量机等。2、非监督式学习工作机制:训练数据没有标签或者答案,目的是找出数据内部的关联和模式,趋势。代表算法:关联算法和 K 均值算法。3、强化学习工作机制:给予算法一个不断试错,并具有奖励机制的场景,最终使算法找到最佳路径或者策略。代表算法:马尔可夫决策过程,AlphaGo+Zero,蒙特卡洛算法4.半监督学习 工作机制:训练数据一部分数据为生成数据,一部分数据为监督数据,算法分为生成器和判定器两部分,生成器的目标是使判定器接受自己的数据,判别器是为了最大可能的区分生成数据和监督数据。通过不断的训练使两者都达到最佳性能。代表算法:GANs(生成式对抗网络算法),机器学习的经典算法,决策树(Decision Tree)支持向量机(Support Vector Machine)回归分析(Linear/Logistic Regression)朴素贝叶斯(Naive Bayes Classification)随机森林(Random forest)K阶近邻(K Nearest Neighbor)K均值算法降维算法集成算法,决策树算法,在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用额度进行分类。(如何找到一个快速准确决策的路径)(特征节点的选择 信息熵,信息增益,gini系数,信息论)优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估场景举例:基于规则的信用评估、赛马结果预测,支持向量机,基于超平面(hyperplane),支持向量机可以对数据群进行分类。用核函数将数据映射到高维度做分类或者回归优点:支持向量机擅长在变量 与其它变量之间进行二元分类操作,无论他们之间的关系是否是线性的场景举例:新闻分类、手写识别。,回归(Regression),回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。可以理解成 数据拟合得出函数关系。优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显场景举例:路面交通流量分析、邮件过滤,朴素贝叶斯算法,朴素贝叶斯分类器:假定模型的的各个特征变量都是概率独立的,根据训练数据和分类标记的的联合分布概率来判定新数据的分类和回归值。优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类场景举例:情感分析、消费者分类,机器学习应用的场景,1.风控征信系统2.客户关系与精准营销3.推荐系统4.自动驾驶5.辅助医疗6.人脸识别7.语音识别8.图像识别9.机器翻译量化交易智能客服商业智能BI,机器学习算法的项目代码演示,Scikit-Learn的简介线性回归算法简介支持向量机算法KNN的算法例子,机器学习的入门的资料,1.数学基础 线性代数,概率论与统计分析,微积分,数值分析,凸优化2.编程语言 java,python,C+任何一门语言3.算法学习(可参考知乎问答)统计学习方法(李航)机器学习(周志华)深度学习(Ian goodfellow),数据挖掘基础,机器学习实战4.网上视频教程(可参考知乎问答)Coursera Udacity 网易云课堂,网易公开课 推荐 机器学习 斯坦福 Andrew Ng 深度学习 coursera Andrew Ng 网易云课堂5.算法框架(看自己的喜好)sklearn,keras,paddlepaddle,angel,theano,caffe,torch,pytorch,tensorflow,numpy,pandas,matplotlib,mxnet 机器学习推荐 sklearn,numpy,pandas,matplotlib 深度学习推荐 keras,pytorch,tensorflow,caffe,mxnet,cntk,angel,paddlepaddle,maxcomputer网上一些资料(上有很多资料)scikit-learn 机器学习的Awesome系列 https:/,