10种机器学习算法介绍.ppt
《10种机器学习算法介绍.ppt》由会员分享,可在线阅读,更多相关《10种机器学习算法介绍.ppt(21页珍藏版)》请在三一办公上搜索。
1、10种机器学习算法介绍,基本概念分类,监督式学习多轮学习以达到目的:实现回归或分类非监督式学习特定方法实现聚类。(由于目的性不明确,所以一般没有多轮)强化学习不断学习,永无止境,分类算法适用因变量为连续变量回归算法适用因变量为离散变量,聚类和分类的差别聚类:无限种类别可能分类:有限种类别可能,监督式学习,工作机制这个算法由一个目标变量或结果变量(或因变量)组成。此变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。例子回归,决策树,随机森林,K 近邻算法,逻辑回归 等,非监督式
2、学习,工作机制在这个算法中,没有任何目标变量或结果变量要预测或估计。这个算法用在不同的组内聚类分析。这种分析方式被广泛地用来细分客户,根据干预的方式分为不同的用户组。例子关联算法,K 均值算法,强化学习,工作机制这个算法训练机器进行决策。机器被放在一个能让它通过反复试错来训练自己的环境中。机器从过去的经验中进行学习,并且尝试利用了解最透彻的知识作出精确的商业判断。(好虚。)例子马尔可夫决策过程,监督式学习与非监督式学习的差别,监督式学习方法,要求:事先明确知道各个类别的信息所有待分类项都有一个类别与之对应如果不能满足上述两个条件(例如有海量数据),则需适用聚类算法,即非监督式学习。,大数据,线
3、性回归,适用场景根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。原理可通过拟合最佳直线来建立自变量和因变量的关系。拟合结果是条直线 Y=a*X+b:其中Y是因变量,a是斜率,x是自变量,b是截距最佳直线叫做回归线。系数 a 和 b 通过最小二乘法获得。R语言代码,#Train the model using the training sets and check scorelinear-lm(y_train x_train)summary(linear)#Predict Outputpredicted=predict(linear,x_test),假设在不问对方体重的情况下,让一个五年
4、级的孩子按体重从轻到重的顺序对班上的同学排序,你觉得这个孩子会怎么做?他(她)很可能会目测人们的身高和体型,综合这些可见的参数来排列他们。这是现实生活中使用线性回归的例子。,逻辑回归,适用场景该算法可根据已知的一系列因变量估计离散数值的出现概率。原理这是一个分类算法而不是一个回归算法。从数学上看,在结果中,几率的对数使用的是预测变量的线性组合模型。ln(p/(1-p)=b0+b1*X1+b2*X2+b3*X3.+bk*XkR语言代码,假设你的朋友让你解开一个谜题。这只会有两个结果:你解开了或是你没有解开。想象你要解答很多道题来找出你所擅长的主题。这个研究的结果就会像是这样:假设题目是一道十年级
5、的三角函数题,你有 70%的可能会解开这道题。然而,若题目是个五年级的历史题,你只有30%的可能性回答正确。这就是逻辑回归能提供给你的信息。,#Train the model using the training sets and check scorelogistic-glm(y_train.,data=x,family=binomial)summary(logistic)#Predict Outputpredicted=predict(logistic,x_test),决策树,使用场景这个监督式学习算法通常被用于分类问题。它同时适用于分类变量和连续因变量。原理在这个算法中,我们将总体分成两
6、个或更多的同类群。这是根据最重要的属性或者自变量来分成尽可能不同的组别。R语言代码,library(rpart)x-cbind(x_train,y_train)#grow treefit-rpart(y_train.,data=x,method=class)summary(fit)#Predict Outputpredicted=predict(fit,x_test)library(rpart.plot)rpart.plot(fit),细说决策树(1)混乱度判断,熵熵:E=sum(-p(I)*log(p(I),I=1:N(N类结果,如客户是否流失)所有样本都属于一个类别I(最整齐),那么熵为0
7、,如果样本完全随机,那么熵为1 信息增益信息增益:原样本的熵-sum(区分后的各部分熵),增益越大表示区分的方法越好Gain(Sample,Action)=E(sample)-sum(|Sample(v)|/Sample*E(Sample(v)除了熵以外,还有GINI不纯度,错误率两种计算混乱度的方法,定义不同但效果类似。,细说决策树(2)rpart参数详解,生成树rpart(formula,data,weights,subset,na.action=na.rpart,method,model=FALSE,x=FALSE,y=TRUE,parms,control,cost,.)主要参数说明me
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 机器 学习 算法 介绍
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5396149.html