基于自动聚类算法AutoClass的恒星星系分类.doc

上传人：文库蛋蛋多

文档编号：2396126

上传时间：2023-02-17

格式：DOC

页数：6

大小：416KB

《基于自动聚类算法AutoClass的恒星星系分类.doc》由会员分享，可在线阅读，更多相关《基于自动聚类算法AutoClass的恒星星系分类.doc（6页珍藏版）》请在三一办公上搜索。

1、中国科学 G 辑: 物理学力学天文学 2009 年第 39 卷第 12 期: 1794 1799 中国科学杂志社SCIENCE IN CHINA PRESS基于自动聚类算法(AutoClass)的恒星/星系分类严太生, 张彦霞*, 赵永恒, 李冀* 河北师范大学物理科学与信息工程学院, 石家庄 050016; 中国科学院国家天文台, 北京 100012* E-mail: zyxlamost.org; zyxsunny; liji收稿日期: 2009-05-21; 接受日期: 2009-07-13国家自然科学基金(批准号: 10778724, 10778616)和国家高科技研究发展计划(

2、编号: 2006AA01A120)资助项目摘要自动聚类算法(AutoClass)是一种非监督的能对复杂数据进行精确的自动聚类的有效分关键词恒星/星系AutoClass数据分析类方法, 可以事先设定好类别数目让 AutoClass 自动寻找, 在寻找结束后, 能够得到每一条数据分别属于每一类别的几率, 这样可以根据专业知识, 选出比较好的分类效果. 描述了使用 AutoClass 对 SDSS DR6 的恒星/星系测光数据进行分类, 将 868974 条测光数据进行处理, 通过去离群数据和自动聚类的方法, 将最终的 812613 条数据分成两类, 其中星系和恒星的数据分别是 680361 和

3、 126988 条. 对于去掉离群后的数据, 星系和恒星的分类正确率分别达到 99.51%和98.52%, 表明 AutoClass 算法对去掉离群数据后的恒星/星系数据分类有很好的效率. 因此, 可以将该算法应用于天文中的其他分类问题, 另外基于该算法的非监督性, 可以帮助天文学家去掉离群数据或发现一些特殊天体.条数据得到了可靠的分类结果. Mahonen 等人3使用模糊分类(fuzzy cl as si fie r ) 和神经网络算法, 对由 Odewahn 等人用 APS 产生的 9245 条复杂的非线性数据进行分类, 结果表明模糊分类算法在处理复杂数据类型时显示出优越性. Mo

4、ore 等人4运用数学形态学方法(mathematical morphology), 对 CCD 图像进行分类, 结果显示对于早型椭圆星系和晚型旋涡星系能精确分类, 但对恒星的误分率较高.本文描述了对 SDSS DR6 经过光谱证认的恒星/ 星系的测光数据的分析处理, 主要目标是对恒星和星系的测光数据进行分类. 分析处理数据的重要一步是如何正确处理偏离量的问题. 在此我们采用数据挖掘技术先对数据进行离群数据的去除, 然后进行聚类分析. 聚类计算用于发现给定的数据集中的恒星/星系的分类是天文学的基本分类任务之一,主要是根据恒星和星系在不同波段的表现性质的不同, 应用不同的方法将它

5、们各自区分开来. 这对我们了解恒星和星系形成与演化历史以及发现特殊天体都具有重要的研究价值. 尤其对现在日益发展的大型巡天计划及由此产生的海量数据而言, 如何将天体自动分类显得尤为重要.目前, 已有许多研究者在这方面进行了研究与探索工作. 例如: Ph ilip 等人1 应用神经网络算法 (Neural Networks), 对 SDSS 早期释放的恒星/星系图像数据进行分类, 没有明显的误分, 取得了很好的分类结果. Ball 等人2采用决策树算法(decision trees), 对 SDSS DR3 的 477068 条数据进行训练, 然后对14300 万条数据测试, 发现

6、对星等 r20 等的 2200 万引用格式: 严太生, 张彦霞, 赵永恒, 等. 基于自动聚类算法(AutoClass)的恒星/星系分类. 中国科学 G 辑, 2009, 39(12): 17941799隐藏形式和趋势, 它将具有类似特点的数据聚成一类. 我们选择使用了 AutoClass 自动聚类算法工具5. 通过 AutoClass 自动聚类得到的分类器, 可以对没有光谱证认的测光数据进行分类预测, 从而可以提高分类的效率和正确率.2自动聚类算法(AutoClass)Autoclass 是一种基于贝叶斯理论的数据聚类算通过对数据进行处理, 计算出每条数据属于每个法,类别的几率值, 将

7、数据进行聚类, 详细的理论可参考文献 5. 自动聚类程序 (AutoClass Program) 是由 Cheeseman 和 Stutz 在 1995 年开发出来的, 程序可以从该网站 (http:/ti.arc.nasa.gov/ic/projects/bayes-group/ autoclass/autoclass-c) 上获得 . 与其他算法相比 , Autoclass 具有以下的优点:( ) 聚类的数据不需要预先给定数据的类别, 但是定义了每个数据成员. 应用 AutoClass 聚类后得到每一组数据分别属于每一类的几率, 根据我们的专业知识, 决定出比较好的分类结果.(

8、) 可以处理连续型或是离散型数据. 在 Auto- Class 中, 每一组数据都以一个向量来表示, 其中每个分量都分别代表不同的属性, 这些属性数据可以是连续型或是离散型.( ) AutoClass 要求我们将资料存成 Data File(存数据文件)与 Header File(描述数据的文件)两部分 , 如此可以让使用者自由搭配 Data File 和 Header File 而节省输入数据的时间.() 可以处理缺值数据. 当一组数据中的某些属性值有缺漏时, AutoClass 仍可将此组数据进行聚类. 同时, AutoClass 也存在以下缺点:() AutoClass

9、不是一个完全自动化的聚类算法, 需要主观地决定数据的适当群数范围, 而此问题却是聚类的一大难题.1SDSS 数据简介SDSS 是 Sloan 数字巡天计划(Sloan Digital SkySurvey)的简称. 该巡天计划将预计覆盖北天球的一半天区(北银级地区), 和少部分南天球天区6. SDSS 的 CDD 测光系统利用 6 组 CDD 同时对天体进行 5 个波段(u,g,r,i,z)的测量. 5 个波段相应的中心波长分别为 3551, 4686, 6165, 7481 和 8931, 其相对应的极限星等分别为 22.0, 22.2, 22.2, 21.3, 20.5. 最终, SD

10、SS 的测光系统将能获得 1 亿多个天体准确的位置及星等的测量, 而对其中 100 多万个恒星/星系数据进行光谱证认.SDSS 的天体基本测光参数包括星等、颜色、轮廓、大小等; 而光谱基本参数包括红移、光谱型等. 在测光数据中, SDSS 采用一种修正过的 Petrosian 星等系统7.在 Petrosian 星等基础上还给出另外一些重要的参数, 如 PSF 星等、PetroR50、PetroR90 等, 除了Petrosian 星等系统外, 参数还包括模型星等. 模型星等是通过利用指数轮廓和 de Vaucouleurs 轮廓, 对光度轮廓进行拟合, 取两种拟合中较好的一个作为最

11、终的模型星等, 主要的参数见表 1. 关于 SDSS 详细介绍可以参考有关文献 (http/clearskies.lamost.org/wp-content/uploads/2007/08/sdss.pdf).表 1 SDSS 中有关恒星/星系的主要参数的简单介绍参数名称代表符号参数性质模型星等Petrosian 星等 PSF 星等 Petrosian 半径包含 50% Petrosian 流量的半径包含 90% Petrosian 流量的半径 DeVaucouleurs 盘拟合半径指数盘拟合半径DeVaucouleurs 盘拟合半长轴与半短轴之比指数盘拟合半长轴与半短轴之比 DeVa

12、ucouleurs 盘拟合的概率对数指数盘拟合的概率对数ModelMagPetroMag PsfMag PetroRad PetroR50PetroR90 deVRad expRad deVAB expAB lnLdeVInLexpmodel u,g,r,I,zPetro u,g,r,I,z psfMag u,g,r,i,z rpR50R90严太生等: 基于自动聚类算法(AutoClass)的恒星/星系分类() 使用 AutoClass 处理数据时, 必须不断地重复假设与测试, 并结合专业知识与程序, 才能得到良好的结果, 因而要花费大量的时间.() 没有提供一个先验标准来预测一组数据是

13、否能够聚类, 因而带有一定的臆断性.() 没有提供一个后验方法来评估分类的结果是否可以信赖.由于 AutoClass 这些优点和缺点, 在聚类时可以应用我们的专业知识首先对数据进行合理的判断, 克服 AutoClass 本身的缺点而发挥它的优点, 这样得到的聚类结果就比较真实客观、科学合理. AutoClass 可以广泛应用于工程技术8、生物学9、无线网络数据处理10等方面的数据处理, 具体应用可参考文献11.体进行分类, 结果表明没有明显的误分, 正确率达到98%以上. 虽然这种截断方法得到了很高的正确率, 但它只能实用于低维数据中, 并不能充分利用所给的信息, 带有很大的偶然性

14、.我们应用 AutoClass 将 SDSS DR6 的所有经过光谱证认的 868974 条恒星/星系测光数据分成两类并计算分类的正确率. 参照 Strauss 参数选择标准, 我们使用测光数据中 PSF 星等的 psf(u), psf(g), psf(r), psf(i), psf(z)等 5 个星等与模型星等的 model(u), model(g), model(r), model(i), model(z)等 5 个星等的差值, 即psf(u)-model(u), psf(g)-model(g), psf(r)-model(r), psf(i)-model(i), psf(z)-mod

15、el(z)共 5 列数据, 数据的分布见图 1, 由图 1 可以看出恒星和星系几乎重叠在一起. 图 2 是 5 个星等差数据密度分布直方图, 从中可以看出重叠部分的密度差别很大. 在图 1 右上很大区域内, 恒星离散数据不到 4000 条, 而左下较小区域内, 星系离散数据也仅 6000 多条, 总的离散数据占整个数据仅百分之一. 为了使 AutoClass 能有更好的分类效果, 首先要对数据进行预处理, 将其中的离群数据挑选出来. 我们将星系测光数据共 728109 条同3AutoClass 应用于恒星/星系分类根据点源( 恒星) 和展源( 星系) 不同表现来研究PSF(po

16、int spread function, 点扩散函数)星等与模型(model)星等的差值分布情况(http:/www.sdss.org/dr4/ algorithms/classify.html), 对恒星 / 星系进行分类 . Strauss 等人11选择 r*PSF r*model0.3 作为分类方法对 13772 个 Petrosian 星等 r 波段 r*P 17.8 星等的天样选择psf(u)- mo del(u ),psf(g)- mo d e l(g) ,psf( r)-图 1 原始的星等数据分布图model(r), psf(i)- model(i), psf(z)- m

17、odel(z)作为输入参数. 对星系数据, 用自动聚类算法将数据聚为两类, 其中一类数据比较少的作为离群数据处理, 这样得到去掉离群后的星系测光数据为 683712 条. 采取同处理, 得到去掉离群后的数据为 128901 条. 去掉离群后的恒星/星系测光数据的分布如图 3 所示. 由图 3 可以看出图形很光滑, 没有了离群数据, 也几乎没有重叠部分, 说明去离群效果很好, 同时也可以看出恒样的方法,将 140865 条恒星的测光数据用 AutoClass星和星系都各自聚集在一起,所以选择的参数有很图 2原始的 5 个波段 psf 星等与模型星等差数据分布直方图图 3 去离群后的星等差数据

18、分布图严太生等: 基于自动聚类算法(AutoClass)的恒星/星系分类好的聚类特性. 然后, 再将去掉离群后的 683712 条星系测光数据和 128901 条恒星数据合在一起, 同样选择 psf(u)-model(u), psf(g)-model(g), psf(r)-model(r),psf(i)-model(i), psf(z)-model(z) 5 列数据作为数据文件(Data File), 用自动聚类算法再分成两类, 结果显示其中有 680361 条星系测光数据和 126988 条恒星测光数据能得到正确分类, 分类的结果和正确率见表 2. 由表 2 可以看出, 自动聚类算法对

19、去掉离群后的数据分类有很高的正确率 , 星系和恒星分别达到了 99.51%和 98.52%, 对于没去离群数据的原始数据分类的正确率也分别达到了 93.44%和 90.15%. 这两种情况对比, 可以发现去掉离群数据有助于提高正确率. 而且这两种情况下的正确率都在 90%以上, 说明该聚类算法用于该分类问题时具有很好的效果. 整个程序 search 运行时间是 222 s, reports 运行时间是15 s, 共用时 237 s. 从分类正确率和运行时间来看,自动聚类算法 AutoClass 显示出很好的分类效率.4结论自动聚类算法 AutoClass 的研究结果表明它对去掉缺值和离

20、群的 SDSS DR6 恒星/星系测光数据分类有很高的正确率, 适合用它对此类数据进行分类, 因此可以用它去构造分类器, 来对没有进行光谱证认的测光数据进行类型预测, 从而提高分类的正确率和效率. 进一步研究发现, 那些去掉离群后的恒星和星系数据都聚集在很小的范围内, 它们内部之间的属性非常接近, 分别对应的是正常的恒星/星系; 而离群数据分布很散漫, 分布范围非常的广泛, 各自之间的属性差异也很大, 它们对应的可能是特殊的恒星和不规则星系, 以及其他类别的特殊天体(如: HII, IrS 和 Radio 等). AutoClass 还可以处理几十维高维数据和缺值数据. 但

21、AutoClass 不是一个完全自动化的分类方法, 需要对被分类的数据属性、数据范围以及类别数目预先定义, 这就需要有专业知识, 对数据有比较深的了解. 可以通过调试数据属性和数据范围来改变分类的正确率, 使结果达到最优效果. 这样根据自动聚类算法的操作特性, 提供对测光数据进行有效分类的有用信息. 鉴于自动聚类算法自身的优越性, 即数据可以根据自己的属性来聚类, 因而有助于去掉离群数据, 亦或发现一些稀有的或特殊的天体和天文现象.表 2 自动聚类结果星系恒星原始数据条数原始数据的正确分类数据条数原始数据分类正确率/% 去离群后的数据条数去离群后的正确分类数据条数7281

22、0968034593.4468371268036114086512699090.15128901126988 去离群后的分类正确率/% 99.51 98.52 参考文献 1Philip N S, Wadadekar Y, Kembhavi A, et al. A difference boosting neural network for automated star-galaxy classification. AstronAtrophys, 2002, 385: 11191126Ball N M, Brunner R J, Myers A D. Robust machine learnin

23、g applied to astronomical data sets. I. Star-galaxy classification of the sloan digital sky survey DR3 using decision trees. Astrophys J, 2006, 650: 497509Mahonen P, Frantti T. Fuzzy classifier for star-galaxy separation. Astrophys J, 2000, 541: 261263Moore J A, Pimbblet K A, Drinkwater M J. Mathema

24、tical morphology: Star/galaxy differentiation & galaxy morphology classification. Publ Astron Soc Austral, 2006, 23: 135146Cheeseman P, Stutz J. Bayesian classification (AutoClass): Theory and results. In: Fayyad U M, Piatetsky-Shapiro G, Smyth P, et al, eds. AAAI/MIT Press: Cambridge, Menlo Park: A

25、AAI Press, 1996. 153180York D G, Adelman J, Anderson J E, et al. The Sloan digital sky survey: Technical summary. Astron J, 2000, 120: 15791587Petrosian V. Surface brightness and evolution of galaxies. Astrophys J, 1976, 209: L1L5张蕾, 何小荣, 陈丙珍常减压装置生产数据的聚类分析计算机与应用化学, 2003, 20: 143147 包雷, 李泽, 孙之荣贝叶斯聚类在

26、基因表达谱知识挖掘中的应用生物物理学报, 2002, 1: 6670 谢博文. 自动分类软体在动作电位上的研究. 硕士学位论文. 台北: 中央大学, 20062631Strauss M A, Weinberg D H, Lupton R H, et al. Spectroscopic target selection in the Sloan digital sky survey: The main galaxy sample. Astron J, 2002, 124: 18101824234567891011Classification of stars/galaxies based on

27、AutoClassYAN TaiSheng1,2, ZHANG YanXia2*, ZHAO YongHeng2 & LI Ji1*1 Hebei Normal University, Shijiazhuang 050016, China;2 National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, ChinaAutoClass is an unsupervised valid classification algorithm which can carry on accurately a

28、utomated clustering on complex data, set the number of classification in advance and perform AutoClass to search after, then get a probability of every data belonging to some type, and fi- nally decide a better classification result by means of professional knowledge. Here the Auto- Class algorithm

29、is used to classify stars/galaxies with the photometric data of SDSS DR6. 868974 photometric data records are selected for classification. Firstly Autoclass is applied on these data to delete outliers, then utilized on the rest of 812613 data records to classify stars and gal- axies. The number of g

30、alaxies and stars is 680361 and 126988, respectively. Their accuracy for galaxies and stars adds up to 99.51% and 98.52%, respectively. Obviously, the AutoClass algo- rithm obtains a better efficiency and effect on this classification problem. Therefore this algo- rithm can be applied for other classification problems in astronomy. In addition, given the unsu- pervised characteristic of this algorithm, it may help astronomers to remove the outliers or find some unusual objects.stars/galaxies, autoclass, data analysis