天体光谱数据挖掘技术.ppt
《天体光谱数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《天体光谱数据挖掘技术.ppt(52页珍藏版)》请在三一办公上搜索。
1、天体光谱数据挖掘技术,太原科技大学计算机科学与技术学院张继福 2008年11月,一、概 述 1)数据挖掘 2)天体光谱数据挖掘 3)课题的研究意义二、主要研究工作 1)基于约束FP树的天体光谱数据相关性分析 2)基于概念格的天体光谱离群数据挖掘,数据挖掘,定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持服务。主要任务:关联规则、分类、聚类、离群数据等。常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。,天体光谱数据挖掘,我国正在建造一台大天区面积多目标光纤光谱望远镜(LAMOST),
2、是国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。预计LAMOST所观测到的光谱数据容量将有可能达到4TB。急需一种新的以计算机为主的数据分析技术,分析和识别如此庞大的海量光谱数据。天体光谱数据处理主要内容:预处理(去噪、归一化等)、分类与识别、测量(红移等参数)等。,一条Seyfert 2 光谱数据图(红移为0)天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大科学问题
3、。,主要的方法 交叉相关分析与主成分分析(PCA)、人工神经网络、小波变换、贝叶斯统计、SVM等。典型的成果 1)Autoclass,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线;2)Gulati等人采用两层BP神经网络方法,用于恒星光谱次型的分类;3)Ellis等人采用交叉相关分析对光谱进行分类;4)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别;5)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法;6)刘中田等人提出基于小波特征的M型星自动识别方法等。,课题的研究意义 由于天文界对宇宙的认识还比较有限,LAMOST巡天计划的一个重要任务是
4、要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到LAMOST中,为国家重大科学工程提供技术支撑。,退回,引言,关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用价值。频繁模式集的生成是提高关联规则挖掘效
5、率的关键。,频繁模式生成主要有:Apriori和FP两类算法。Apriori算法 优点:思路比较清晰,以递归统计为基础,剪枝生成频繁集;缺点:在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,I/O代价太高,难以适应海量高维数据。FP算法 优点:(l)通过对FP树的递归访问,产生频繁模式集,仅需要构造FP树和条件FP树,不需要产生候选项集;(2)对事务数据库仅需两次遍历,第l次遍历产生频繁l-项集,第2次遍历用于构造FP树,从而降低了访问数据库的次数。缺点:FP树需要占用大量内存。,约束FP树及其构造,一阶谓词逻辑与背景知识 数据挖掘是从宏观角度利用积累的巨量数据进行知识抽象的高级阶
6、段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。关联规则挖掘过程也离不开背景知识的支持。面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。,定义3-1 设r 是交易数据库中的关系表名个体变量,f 是表示关系表到属性的映射的函词,k 是支持度(0k1),则背景知识G可由如下谓词公式,通过逻辑运算符组成合适公式。(1)Interesting(f(r)(2)support(f(r),k)Interesting(f(r)(3)Interested(f(r)Interesting(f(r)(
7、4)P(f(r)Q(f(r)Interesting(f(r)定义3-3 设D为交易数据库,min为最小支持度,G为背景知识,如果L是一频繁模式,且G(L)=True,则称L为约束频繁模式。,CFP-tree及构造 定义3-4 设G为背景知识,对于任意频繁模式树FP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁模式P,使得G(P)=True,则称FP-Tree为约束频繁模式树CFP-tree。构造思想与方法:只有数据库中的事务T满足G所构造出的FP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描数据库来完成CFP-tree的构造。,定理2-1 设D为一个交易数据库、mi
8、n为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,则从CFP-tree提取出的任意频繁模式P,一定是满足G(P)=true(即约束频繁模式)。定理2-2 设D为一个交易数据库、min为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,P为任意频繁模式,若G(P)=true(即约束频繁模式),则P一定是CFP-tree中的频繁模式。,定理2-3 CFP-tree是FP-tree的子集。定理2-4 设D为一个交易数据库、G1,G2为背景知识,且G1G2、T1,T2分别是基于G1,G2构造的CFP-tree,则T1T2。(约束的单调性)推论3-1 设D为一个交易数
9、据库、G1,G2为背景知识,T1,T2分别是基于G1,G2构造的CFP-tree,当G1=G2时T1=T2。(约束的唯一性),推论3-2 设D为一个交易数据库、G1为背景知识,TCFP是基于G1构造的CFP-tree,TFP是数据库D的FP-tree,当G1=时TCFP=TFP。定理3-5 设D为一个交易数据库、min为一个最小支持度、G为背景知识,构造出的约束FP树为CFP-tree,由G将交易数据库分为两部分,即:D=D1D2,其中:TD1,那么G(T)=True,TD2,G(T)=False,如果对于D1,采用传统FP-tree构造方法的FP树为FP-Tree1,则CFP-tree与FP
10、-Tree1是同一棵树。,约束FP树的构造算法 算法描述及分析(见P23-24)实验分析 硬件:PentiumIV-2.0G CPU,512M 内存;软件:Windows XP 操作系统,DBMS 为ORACLE9i,VC+为编程语言;数据预处理:(8400 条SDSS恒星光谱数据)1)选定间隔为20 的200个波长,离散化为十三种值;2)温度等间隔离散化为三种值,七类恒星温度离散化为二十一种值;3)光度、化学分度、微湍流等间隔离散化为三种值。,表3-2 约束FP树构造效率比较1(|DB|=6000,单位:秒),表3-3 约束FP树构造效率比较2(min=3%,单位:秒),表3-4 约束频繁模
11、式(|DB|=8400,min=1%,单位:个),基于CFP树的天体光谱数据相关性分析系统,天体光谱数据预处理 归一化 离散化(表3-5 恒星光谱数据离散化参数)天体光谱知识表示 给定一个天体光谱数据库DB=I1,I2,Im为DB中m条光谱数据的集合,DB中每一条光谱Ii就是I中的一组项目子集,即Ii I,其中:I=A1,A2,An,S1,S2,Sm,Ai为第i波长处的离散化特征属性,Sj第j个物理化学性质的离散化属性。,定义3-5 设r 是天体光谱数据库中的关系表名个体变量,f 是表示关系表到属性的映射的函词,min 是最小支持度(0min1),则天体光谱知识G可由如下谓词公式,通过逻辑运算
12、符组成合适公式。(1)Interesting(f(r)(2)support(f(r),min)Interesting(f(r)(3)Interested(f(r)Interesting(f(r)对于任意天体光谱知识G,G是由定义3-5中的三类谓词公式,通过逻辑运算符组成的合适公式,由文献56可知,G可化简为合取范式,并用子句集S来表示。,定理3-6 设S是表示天体光谱知识G的子句集,任一子句sS是由谓词Interesting(f(r)、support(f(r),min)、Interested(f(r)所表达的若干有限文字析取式,且下列公式成立。Interesting(f1(r1)support
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 天体 光谱 数据 挖掘 技术
链接地址:https://www.31ppt.com/p-6110840.html