软件工程硕士论文 基于改进的kNN算法的 MicroDM的设计与实现.doc
《软件工程硕士论文 基于改进的kNN算法的 MicroDM的设计与实现.doc》由会员分享,可在线阅读,更多相关《软件工程硕士论文 基于改进的kNN算法的 MicroDM的设计与实现.doc(48页珍藏版)》请在三一办公上搜索。
1、研 究 生 毕 业 论 文(申请工程硕士学位)论文题目基于改进的k-NN算法的MicroDM的设计与实现作者姓名 学科、专业名称工程硕士(软件工程领域)研究方向软件工程指导教师 2009年 5 月 10 日学 号: MG0732077论文答辩日期: 年 月 日指 导 教 师: (签字)基于改进的k-NN算法的microDM的设计和实现作 者:指导教师:南京大学研究生毕业论文(申请工程硕士学位)南京大学软件学院2009年5月The Design of MicroDM Based on Improved k-NNYU, QinSubmitted in partial fulfillment of
2、the requirements for the degree of Master of EngineeringSupervised by Professor LI, Xuandong Lecturer Liu, HaitaoSoftware InstituteNANJING UNIVERSITYNanjing, ChinaMay, 2009摘 要目前,互联网已经成为重要网络媒体,网上海量资源在迅速膨胀。随着信息量的快速增长,分类已成为信息检索,知识挖掘和管理等领域的关键技术。分类的精确程度取决于特征提取的科学性和分类算法的科学性。现有的分类方法主要有支持向量机(SVM),K-近邻(K-NN)
3、,决策树,线性最小二乘法估计(LLSF)和贝叶斯分类算法(Bayes)等。K-NN算法用已归类到数据训练分类器,是一种基于实例研究的文本分类算法。K-NN算法实现非常简单有效,同时算法分类效率高,适用于海量互联网文本信息分类处理。将传统的K-NN算法直接应用于互联网媒体海量发布信息智能分类时,算法实际效果不佳或者性能不稳定。鉴于此,文中设计与实现了基于改进后的K-NN算法的MicroDM。改进的K-NN方法实现了重要互联网媒体海量发布信息智能分类,并使用脚本自动生成测试数据文件,分别使用传统的K-NN算法以及MicroDM中的K-NN算法进行数据挖掘,评估运行结果,验证改进算法的有效性。实验结
4、果表明改进的K-NN算法能更加有效的分类。关键词:分类,K-NN算法,数据挖掘平台 AbstractToday, internet has become the most import network media and the resources of network inflate quickly. Classification becomes the key technology in the data mining field while the information is increasing crazy. The accuracy of classifier depends on
5、 the scientificity of feature extraction and classifier algorithms. Now there are several classifier algorithms, such as SVM, K-NN, DTree, LLSF and Bayes.K-NN (K nearest neighbor) algorithm use labeled data to build the classifier. It is a instance-based learing algorithm. The K-NN algorithm is almo
6、st the simplest of all machine learing algorithms.It is good at dealing with a classification to information the network medium released.The actual effect is not so good or the performance is unstable if we use the traditional K-NN algorithm dierectly to deal with the massive amount of information t
7、hat released by the important network medium. Owing to this, this article designs and implements the datamining platform named MicroDM based on improved K-NN algorithm. The improved K-NN algorithm implements the information intelligence classification on network media and then validates the validity
8、 of this improved algorithm. Whats more, this article uses data files generated automatically by a script to demonstrate the result produced by the traditional K-NN algorithm as well as the improved K-NN algorithm.The result of the experiment indicates that the improved K-NN algorithm can be more ef
9、fective.Keywords:Classification, K-NN algorithm, datamining platform目 录第一章 引言21.1本文研究的背景及问题21.2 数据挖掘简介21.2.1 数据挖掘概述21.2.2 数据挖掘的对象31.2.3 数据挖掘的流程41.2.4 数据挖掘的方法51.3 k-NN简介61.3.1 朴素的k-NN算法61.3.2 k-NN算法的优缺点分析71.4 本文的工作8第二章 相关技术92.1 数据预处理92.1.1 数据清理92.1.2数据集成102.1.3数据变换102.1.4数据离散化122.2 交叉验证(Cross Validat
10、ion)122.3 评估方法132.4 小结13第三章 基于改进的K-NN算法的MicroDM的分析与设计143.1 项目简介143.2 运行界面143.3 设计图163.4 数据挖掘流程图173.5 K-NN算法分析与改进183.5.1数据文件(ARFF)分析183.5.2数据特征集分析213.5.3算法分析233.5.4算法详解233.5.5K-NN算法流程图253.6 小结26第四章 MicroDM的实现与效果评估274.1算法实现274.1.1Z-Score算法实现274.1.2Min-Max算法实现284.1.3改进后的k-NN中距离的算法实现294.2 实现结果与分析314.2.1
11、 评估指标314.2.2 实验设置314.2.3 运行过程324.2.4结果分析344.3 小结37第五章 总结和展望38参 考 文 献39致 谢41图表目录图1.1 KDD过程示意图4图1.2 K-NN6图3.1 MicroDM运行界面15图3.2 设计的包图16图3.3 类图17图3.5 数据挖掘流程图18图3.4 data.arff19表3.1 labbor.arff22图3.6 结构图26图4.1 Z-score算法定义28图4.2 Max-Min算法定义29图4.3 扩展的距离算法定义31图4.4 运行界面33图4.5 运行结果输出界面34表4.1 best K对比34表4.2 传统
12、的K-NN算法36表4.3 改进&不使用ordinal36表4.4 改进&使用ordinal37第一章 引言1.1本文研究的背景及问题目前,互联网已经成为重要网络媒体,网上海量资源在快速膨胀。随着信息量的快速增长,分类已成为信息检索,知识挖掘和管理等领域的关键技术。分类的精确程度取决于特征提取的科学性和分类算法的科学性。现有的分类方法主要有支持向量机(SVM),K近邻(KNN),决策树,线性最小二乘法估计(LLSF)和贝叶斯分类算法(Bayes)等。相关研究证明,KNN算法是VSM(向量空间模型)下最好的分类算法之一。KNN方法基于类比学习,是一种非参数的分类技术,在基于统计的模式识别中非常有
13、效,对于未知和非正态分布可以取得较高的分类正确率,具有鲁帮性,概念清晰等诸多优点。而且,KNN算法实现非常简单有效。同时算法分类效率高,适用于海量互联网文本信息分类处理。对于灵活多变的互联网文本信息,传统的KNN方法的缺陷逐渐暴露出来,如,KNN算法是建立在VSM模型上的,计算临近性时主要处理的对象是数值属性, 大多使用欧几里德距离,并且每个数值属性都取相同的权值;这严重限制了KNN方法的应用范围以及分类精度。1.2 数据挖掘简介1.2.1 数据挖掘概述随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次
14、的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。同时,计算机技术的另一领域人工智能自1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段, 目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有决策树、K-NN算法等。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD:Knowled
15、ge Discovery in Databases)的产生。数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段。预测和描述是数据挖掘的主要任务。预测是指用一些变量或数据库中的若干字段预测其他感兴趣的变量或字段的值;描述是指挖掘出数据库的一般特性。许多人将数据挖掘看成是数据库中的知识发现(Knowledge Discovery in Database KDD)的一部分,这是狭义上的数据挖掘;从广义的观点来看,数据挖掘系统代表了KDD的整个过程。KDD的目标是从大型数据集中获取有用知识,它是一个交互式的半自动分析工具,系统的用户应当对有关领域具备良好的理解力。1.2.2 数
16、据挖掘的流程下面是对数据挖掘流程的介绍图1.1 KDD过程示意图1. 确定发现任务的应用领域、背景知识和性质。2. 准备相关的数据子集:将分布在各处以各种形式存放的数据,按照KDD的需求收集过来,并根据分析需求,选择适当的和典型的数据,缩小处理范围。3. 对数据进行预处理:通过汇总或聚集操作将数据变换统一成适合挖掘的形式。4. 进行数据挖掘,发现模式并表达成易于理解的规则或树的形式:模式是数据的一个子集的抽象表示,它可以以人工的方式或自动的方式建立。5. 评价和解释发现的模式:根据设定目标(通常为兴趣度度量),利用专业知识,对数据挖掘结果进行评估和解释,去除多余的或不重要的模式,将结果提交给用
17、户。KDD表示了从低层数据抽象到高级知识的过程。KDD过程必然是重复的。数据挖掘的结果可能会要求在数据准备阶段作某些必要的变化。模式的后处理也可能导致用户对模式类型作适当的修改等等。1.2.3 数据挖掘的对象根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及internet等。1.2.4 数据挖掘的方法1. 空间分析方法指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内 的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,
18、或挖掘出目标之间的最短路径、最优路径等知识。目前常用的空间分析方法包括探测性 的数据分析、空间相邻关系挖掘算法、探测性空间分析方法、探测性归纳学习方法、图像分析方法等。2. 统计分析方法指利用空间对象的有限信息和/或不确定性信息进行统计分析,进而评估、预测空间对象属性的特征、统计规律等知识的方法。它主要运用空间自协方差结构、变异函数或与其相关的自协变量或局部变量值的相似程度实现包含不确定性的空间数据挖掘。3. 空间关联规则挖掘方法即在空间数据库(数据仓库)中搜索和挖掘空间对象(及其属性)之间的关联关系的算法。最著名的关联规则挖掘算法是Agrawal提出的Apriori算法;此外还有程继华等提出
19、的多层次关联规则的挖掘算法、许龙飞等提出的广义关联规则模型挖掘方法等。4. 聚类分析方法即根据实体的特征对其进行聚类或分类,进而发现数据集的整个空间分布规律和典型模式的方法。常用的聚类方法有K-mean, K-medoids方法、Ester等提出的基于R树的数据聚焦法及发现聚合亲近关系和公共特征的算法、周成虎等提出的基于信息熵的时空数据分割聚类模型等。5. 神经网络方法即通过大量神经元构成的网络来实现自适应非线性动态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。6. 决策树方法即根据不同的特征,以
20、树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行 剪枝处理,把决策树转化为据以对新实体进行分类的规则。1.3 k-NN简介k-NN(k-Nearest Neighbors)算法又叫k-最临近方法。假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, k-NN就是计算每个样本数据到待分类数据的距离,取和待分类数据最近的k各样本数据,那么这个k个样本数据中哪个类别的
21、样本数据占多数,则待分类数据就属于该类别。 k-NN 分类规则是较为常见的一种有规划的非参数分类算法。它的基本思想就是给定一个包含n个记录的训练数据集, k-NN 分类器根据特定的相似度,分派输入样本到训练集合中k个最近的类中最公共的类。图1.2 K-NN1.3.1 朴素的k-NN算法最临近分类基于类比学习。训练样本用n维数值属性描述,每个样本代表n 维空间的一个点。这样,所有的训练样本都存放在n维模式空间中。给定一个未知样本, k-NN搜索模式空间,找出最接近未知样本的k个训练样本,这k个训练样本是未知样本的k 个近邻。临近性用欧几里德距离定义, 其中两个点X = ( x1 , x2 , .
22、 . . , x n ) 和Y = ( y1 ,y2 , . . . , yn) 的欧氏距离是未知样本被分配到k个最临近者中最公共的类。1.3.2 k-NN算法的优缺点分析1. 优点k-NN的原理非常直观,算法的实现也很简单;k-NN没有训练过程,不需要特征选取和训练,很容易处理类比数目多的情况;k-NN是一种在线(online)技术,这意味着新的数据可以在任何时候被添加进来,这一点不同于以支持向量机为代表的一类技术,后者在数据改变之后必须重新进行训练。而对于k-NN而言,添加新的数据根本不须要进行任何的计算,只要将数据添加到集合中即可;在基于统计的模式识别中非常有效,对于未知和非正态分布可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 软件工程硕士论文 基于改进的kNN算法的 MicroDM的设计与实现 软件工程 硕士论文 基于 改进 kNN 算法 MicroDM 设计 实现

链接地址:https://www.31ppt.com/p-3994124.html