基于自动聚类算法AutoClass的恒星星系分类.doc
《基于自动聚类算法AutoClass的恒星星系分类.doc》由会员分享,可在线阅读,更多相关《基于自动聚类算法AutoClass的恒星星系分类.doc(6页珍藏版)》请在三一办公上搜索。
1、中国科学 G 辑: 物理学 力学 天文学 2009 年 第 39 卷 第 12 期: 1794 1799 中国科学杂志社SCIENCE IN CHINA PRESS基于自动聚类算法(AutoClass)的恒星/星系分类严太生, 张彦霞*, 赵永恒, 李冀* 河北师范大学物理科学与信息工程学院, 石家庄 050016; 中国科学院国家天文台, 北京 100012* E-mail: zyxlamost.org; zyxsunny; liji收稿日期: 2009-05-21; 接受日期: 2009-07-13国家自然科学基金(批准号: 10778724, 10778616)和国家高科技研究发展计划(
2、编号: 2006AA01A120)资助项目摘要自动聚类算法(AutoClass)是一种非监督的能对复杂数据进行精确的自动聚类的有效分关键词恒星/星系AutoClass数据分析类方法, 可以事先设定好类别数目让 AutoClass 自动寻找, 在寻找结束后, 能够得到每一条数据分别属于每一类别的几率, 这样可以根据专业知识, 选出比较好的分类效果. 描述了使用 AutoClass 对 SDSS DR6 的恒星/星系测光数据进行分类, 将 868974 条测光数据进行处理, 通过 去离群数据和自动聚类的方法, 将最终的 812613 条数据分成两类, 其中星系和恒星的数据分别 是 680361 和
3、 126988 条. 对于去掉离群后的数据, 星系和恒星的分类正确率分别达到 99.51%和98.52%, 表明 AutoClass 算法对去掉离群数据后的恒星/星系数据分类有很好的效率. 因此, 可 以将该算法应用于天文中的其他分类问题, 另外基于该算法的非监督性, 可以帮助天文学家去 掉离群数据或发现一些特殊天体.条数据得到了可靠的分类结果. Mahonen 等人3使用模糊分类(fuzzy cl as si fie r ) 和神经网络算法, 对由 Odewahn 等人用 APS 产生的 9245 条复杂的非线性数 据进行分类, 结果表明模糊分类算法在处理复杂数 据类型时显示出优越性. Mo
4、ore 等人4运用数学形态 学方法(mathematical morphology), 对 CCD 图像进行 分类, 结果显示对于早型椭圆星系和晚型旋涡星系 能精确分类, 但对恒星的误分率较高.本文描述了对 SDSS DR6 经过光谱证认的恒星/ 星系的测光数据的分析处理, 主要目标是对恒星和 星系的测光数据进行分类. 分析处理数据的重要一 步是如何正确处理偏离量的问题. 在此我们采用数 据挖掘技术先对数据进行离群数据的去除, 然后进 行聚类分析. 聚类计算用于发现给定的数据集中的恒星/星系的分类是天文学的基本分类任务之一,主要是根据恒星和星系在不同波段的表现性质的不 同, 应用不同的方法将它
5、们各自区分开来. 这对我们 了解恒星和星系形成与演化历史以及发现特殊天体 都具有重要的研究价值. 尤其对现在日益发展的大 型巡天计划及由此产生的海量数据而言, 如何将天 体自动分类显得尤为重要.目前, 已有许多研究者在这方面进行了研究与 探索工作. 例如: Ph ilip 等人1 应用神经网络算法 (Neural Networks), 对 SDSS 早期释放的恒星/星系图 像数据进行分类, 没有明显的误分, 取得了很好的分 类结果. Ball 等人2采用决策树算法(decision trees), 对 SDSS DR3 的 477068 条数据进行训练, 然后对14300 万条数据测试, 发现
6、对星等 r20 等的 2200 万引用格式: 严太生, 张彦霞, 赵永恒, 等. 基于自动聚类算法(AutoClass)的恒星/星系分类. 中国科学 G 辑, 2009, 39(12): 17941799隐藏形式和趋势, 它将具有类似特点的数据聚成一类. 我们选择使用了 AutoClass 自动聚类算法工具5. 通过 AutoClass 自动聚类得到的分类器, 可以对没有 光谱证认的测光数据进行分类预测, 从而可以提高 分类的效率和正确率.2自动聚类算法(AutoClass)Autoclass 是一种基于贝叶斯理论的数据聚类算 通过对数据进行处理, 计算出每条数据属于每个法,类别的几率值, 将
7、数据进行聚类, 详细的理论可参考文献 5. 自动聚类 程序 (AutoClass Program) 是由 Cheeseman 和 Stutz 在 1995 年开发出来的, 程序可以 从该网站 (http:/ti.arc.nasa.gov/ic/projects/bayes-group/ autoclass/autoclass-c) 上获 得 . 与其他算 法相比 , Autoclass 具有以下的优点:( ) 聚类的数据不需要预先给定数据的类别, 但是定义了每个数据成员. 应用 AutoClass 聚类后得 到每一组数据分别属于每一类的几率, 根据我们的 专业知识, 决定出比较好的分类结果.(
8、) 可以处理连续型或是离散型数据. 在 Auto- Class 中, 每一组数据都以一个向量来表示, 其中每 个分量都分别代表不同的属性, 这些属性数据可以是连续型或是离散型.( ) AutoClass 要求我们将资料存成 Data File(存数据文件)与 Header File(描述数据的文件)两 部分 , 如此可 以让 使用者 自由 搭配 Data File 和 Header File 而节省输入数据的时间.() 可以处理缺值数据. 当一组数据中的某些 属性值有缺漏时, AutoClass 仍可将此组数据进行聚 类. 同时, AutoClass 也存在以下缺点:() AutoClass
9、不是一个完全自动化的聚类算法, 需要主观地决定数据的适当群数范围, 而此问题却 是聚类的一大难题.1SDSS 数据简介SDSS 是 Sloan 数字巡天计划(Sloan Digital SkySurvey)的简称. 该巡天计划将预计覆盖北天球的一半天区(北银级地区), 和少部分南天球天区6. SDSS 的 CDD 测光系统利用 6 组 CDD 同时对天体进行 5 个波段(u,g,r,i,z)的测量. 5 个波段相应的中心波长分 别为 3551, 4686, 6165, 7481 和 8931, 其相对应的极 限星等分别为 22.0, 22.2, 22.2, 21.3, 20.5. 最终, SD
10、SS 的测光系统将能获得 1 亿多个天体准确的位置及星 等的测量, 而对其中 100 多万个恒星/星系数据进行 光谱证认.SDSS 的天体基本测光参数包括星等、颜色、轮 廓、大小等; 而光谱基本参数包括红移、光谱型等. 在 测光数据中, SDSS 采用一种修正过的 Petrosian 星等系统7.在 Petrosian 星等基础上还给出另外一些重要的参数, 如 PSF 星等、PetroR50、PetroR90 等, 除了Petrosian 星等系统外, 参数还包括模型星等. 模型星 等是通过利用指数轮廓和 de Vaucouleurs 轮廓, 对光度轮廓进行拟合, 取两种拟合中较好的一个作为最
11、终的模型星等, 主要的参数见表 1. 关于 SDSS 详细 介绍可以参考有关文献 (http/clearskies.lamost.org/wp-content/uploads/2007/08/sdss.pdf).表 1 SDSS 中有关恒星/星系的主要参数的简单介绍参数名称代表符号参数性质模型星等Petrosian 星等 PSF 星等 Petrosian 半径包含 50% Petrosian 流量的半径 包含 90% Petrosian 流量的半径 DeVaucouleurs 盘拟合半径 指数盘拟合半径DeVaucouleurs 盘拟合半长轴与半短轴之比 指数盘拟合半长轴与半短轴之比 DeVa
12、ucouleurs 盘拟合的概率对数 指数盘拟合的概率对数ModelMagPetroMag PsfMag PetroRad PetroR50PetroR90 deVRad expRad deVAB expAB lnLdeVInLexpmodel u,g,r,I,zPetro u,g,r,I,z psfMag u,g,r,i,z rpR50R90严太生等: 基于自动聚类算法(AutoClass)的恒星/星系分类() 使用 AutoClass 处理数据时, 必须不断地重复假设与测试, 并结合专业知识与程序, 才能得到良 好的结果, 因而要花费大量的时间.() 没有提供一个先验标准来预测一组数据是
13、否能够聚类, 因而带有一定的臆断性.() 没有提供一个后验方法来评估分类的结果 是否可以信赖.由于 AutoClass 这些优点和缺点, 在聚类时可以 应用我们的专业知识首先对数据进行合理的判断, 克服 AutoClass 本身的缺点而发挥它的优点, 这样得到 的聚类结果就比较真实客观、科学合理. AutoClass 可 以广泛应用于工程技术8、生物学9、无线网络数据 处理10等方面的数据处理, 具体应用可参考文献11.体进行分类, 结果表明没有明显的误分, 正确率达到98%以上. 虽然这种截断方法得到了很高的正确率, 但它只能实用于低维数据中, 并不能充分利用所给 的信息, 带有很大的偶然性
14、.我们应用 AutoClass 将 SDSS DR6 的所有经过光 谱证认的 868974 条恒星/星系测光数据分成两类并计 算分类的正确率. 参照 Strauss 参数选择标准, 我们使用测光数据中 PSF 星等的 psf(u), psf(g), psf(r), psf(i), psf(z)等 5 个星等与模型星等的 model(u), model(g), model(r), model(i), model(z)等 5 个星等的差值, 即psf(u)-model(u), psf(g)-model(g), psf(r)-model(r), psf(i)-model(i), psf(z)-mod
15、el(z)共 5 列数据, 数据的分 布见图 1, 由图 1 可以看出恒星和星系几乎重叠在一 起. 图 2 是 5 个星等差数据密度分布直方图, 从中可 以看出重叠部分的密度差别很大. 在图 1 右上很大区 域内, 恒星离散数据不到 4000 条, 而左下较小区域 内, 星系离散数据也仅 6000 多条, 总的离散数据占 整个数据仅百分之一. 为了使 AutoClass 能有更好的 分类效果, 首先要对数据进行预处理, 将其中的离群 数据挑选出来. 我们将星系测光数据共 728109 条同3AutoClass 应用于恒星/星系分类根据点源( 恒星) 和展源( 星系) 不同表现来研究PSF(po
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 自动 算法 AutoClass 恒星 星系 分类
链接地址:https://www.31ppt.com/p-2396126.html