数据挖掘算法的几何思想.ppt
《数据挖掘算法的几何思想.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法的几何思想.ppt(40页珍藏版)》请在三一办公上搜索。
1、数据挖掘算法的几何思想,李保坤老师西南财经大学统计学院,内容概要,一数据挖掘介绍什么是数据挖掘数据挖掘的主要任务数据挖掘简单步骤二数据挖掘算法及其几何思想分类:分类树、简单贝页斯、Logistic回归、神经网络、判别分析、k-最近邻点预测:多元线性回归、神经网络数据精简:主成分分析探索性分析:聚类关联分析:关联法则三西南数据挖掘系统,一数据挖掘介绍1.1 什么是数据挖掘,是近来创造的名词,是把统计学、计算机科学的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法。数据挖掘是建立在规模、速度、和简单化上的统计学;“是用统计学和计算机科学的方法为大型数据建模的一种综合工具。
2、”我的想法,“会数据挖掘找工作时工资要高一些”!-研究生同学的反馈信息,4,一数据挖掘介绍1.1 什么是数据挖掘,数据挖掘概念及商务应用,客户关系管理金融电子商务和互联网,客户关系管理,直销(Target Marketing)客户流失预测/跳槽分析(Attrition Prediction/Churn Analysis)欺诈探测(Fraud Detection)信用评分(Credit Scoring),金融,商业问题:公司债券的定价取决于几种因素,公司的风险特征(risk profile)、债务资历(seniority of debt)、公司历史等等 解决方案:通过数据挖掘建立预测价格的更为精
3、确的模型,电子商务和互联网,推荐系统把点击鼠标者变成客户,1.2.1 分类数据挖掘的一项基本任务就是用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。分类或许是数据挖掘应用最广泛的任务。,一数据挖掘介绍1.2 任务,10,一数据挖掘介绍 1.2 任务,1.2.1 分类举例一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款发放给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息等变量建立一个模型预测一个申请人将来会不会欺诈。,该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值
4、的那些申请人将建议不批准。,1.2.2 预测预测和分类相似,差别在于我们是预测一个变量的数值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而“预测”这个术语在数据挖掘里通常指的是预测一个连续变量的数值。(另外,预测和估计也经常被混用),一数据挖掘介绍 1.2 任务,1.2.3 关联分析 有了储存客户交易信息的大型数据库自然就产生了对购买物品进行的关联分析(哪种物品和哪种物品是搭配着买的)。通过关联分析得到的“关联法则”然后以多种方式被利用。例如,百货商店可以利用关联法则在扫描了一个顾客的采购单后印制优惠券,优惠卷上打折扣的商品是由通过分析大量顾客的采购单得到的关联法则决定的。,一数据
5、挖掘介绍 1.2 任务,1.2.4 数据精简数据分析经常需要把复杂的数据进行精简。分析人员不是处理成千上万种商品,而是希望把数据压缩成几个小组。这种把大量的变量(或者记录)合并而得到一个较小数据集合的过程就叫数据精简。,一数据挖掘介绍1.2 任务,1.2.5 探索性分析审查和检验数据以了解它包含什么信息。例如为全面了解数据需要减少数据集合的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量(即提供类似信息的变量)可以合并到一个变量。类似地,聚类分析可把所有记录划分到由相似记录构成的几个组里。,一数据挖掘介绍 1.2 任务,1.2.6 数据显示了解数据包含信息的另一个技术是图形分析。例如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 几何 思想
链接地址:https://www.31ppt.com/p-5362270.html