游戏数据聚类分析TwoS.ppt
聚类分析理论TwoSteps,TwoSteps算法的优势,TwoSteps支持数值型和分类型数据,这对于我们而言在使用时就方便很多,此外游戏数据一般来说都很大,TwoStep在这方面来说还是很具有优势的,数据迭代过程中的内存消耗和聚类数目确定,TwoStep表现的都很好,两步聚类避免了距离矩阵过大,导致算法执行效率下降,而这也是优势所在。,数据选取,1、这里选取的是次日留存用户数据进行分析,之所以选择次日,是由游戏的特点决定的,再者手机游戏的周期相对短一些,所以如果考虑周,双周就不是很好了(当然也不是绝对的),其实3日留存也可以选择,只是需要了解你自己的游戏具体情况再做判断。2、这里选取的是次日留存用户数据进行分析,之所以选择次日,是由游戏的特点决定的,再者手机游戏的周期相对短一些,所以如果考虑周,双周就不是很好了(当然也不是绝对的),其实3日留存也可以选择,只是需要了解你自己的游戏具体情况再做判断。,数据选取,既然要做聚类分析,那我们选什么数据作分析,提取特征呢?我们要做的是提取次日留存用户的特征,因此,根据需要我们提取了一些用户的数据点。,SPSS进行数据分析,打开“菜单|分类|两步聚类”,SPSS进行数据分析,要进行变量选择,如果是分类变量,就选择进入分类变量,如果是连续变量,就选择进入连续变量。,SPSS进行数据分析,距离变量:确定计算两个变量之间的相似性,对数相似值系统使用对数似然距离计算,而欧式距离是以全体变量为连续性变量为前提的,由于我们的数据中存在分类型变量,因此这里选择对数相似值。聚类数量:允许指定如何确定聚类数。如果自动确定将会使用聚类准则中指定的准则BIC 或者 AIC,自动确定最佳的聚类数,或者设置最大值。也可以指定一个固定值,不过一般来说就自动确定OK了。连续变量计数:对一个变量是否进行标准化的设置。,SPSS进行数据分析,点击选项,弹出如下的面板,离群值处理:这里主要是针对CF填满后,如何对离群值的处理。关于噪声处理,此处默认即可内存分配:指定聚类算法应使用的最大的内存量。如果该过程超过了此最大值,则将使用磁盘存储内存中放不下的信息。此项默认就行了。连续变量的标准化:聚类算法处理标准化连续变量。,点击输出:弹出界面如下,两步聚类,两步聚类,双击这个模型,就会弹出来聚类浏览器,两步分类,“聚类浏览器”包含两个面板,主视图位于左侧,链接或辅助视图位于右侧。有两个主视图:模型摘要(默认视图)分群。有四个链接/辅助视图:预测变量的重要性.聚类大小(默认视图)单元格分布。聚类比较。,结果分析,“模型摘要”视图显示聚类模型的快照或摘要,包括加阴影以表示结果较差、尚可或良好的聚类结合和分离的 Silhouette 测量。该快照可让您快速检查质量是否较差,如果较差,可返回建模节点修改聚类模型设置以生成较好的结果。,Thank you!,钓鱼岛游戏中心整理,