基因表达数据分析的方法毕业论文.doc
《基因表达数据分析的方法毕业论文.doc》由会员分享,可在线阅读,更多相关《基因表达数据分析的方法毕业论文.doc(15页珍藏版)》请在三一办公上搜索。
1、基因表达数据分析的方法摘要:基因表达数据的一个重要应用是给疾病样本分类,如鉴别白血病的类型。而对成千上万个基因表达进行分析,必产生总量巨大的数据集。近年来,支持向量机(SVM)的理论已经取得重大进展,其算法实现策略以及实际应用也发展迅速,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。利用这一技术分析与整理这些基因表达数据,已有效地解决了生物信息学上这一海量数据的瓶颈问题。本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析。关键词:生物信息学;基因表达数据;支持向量机 Methods of gene expression data analysis Abstract:
2、Gene expression data has an important application to the classification of disease samples, such as identifying the types of leukemia. The analysis of thousands of gene expression data, will produce a tremendous amount of data sets. In recent years, support vector machine (SVM) theory that significa
3、nt progress has been made towards its strategy and practical applications of algorithms has been developing rapidly and became overcome the Dimension disaster and Over-study, a powerful means of the traditional difficulties. Using this technology analysis and collation of these gene expression data
4、have been effectively solved bottleneck on the enormous bioinformatics data. This paper discusses the algorithms and application of support vector machine in gene expression data analysis.Keywords:Bioinformatics ;Gene expression data; Support vector machine 目 录1 引言 (1)2 生物技术的发展前景 (1)2.1生物信息学的研究现状 (2
5、)2.2 基因芯片与基因表达数据 (2)2.2.1 基因芯片 (3)2.2.2 基因表达数据 (3)3 基因表达数据分析的方法 (3)3.1 支持向量机 (4)3.1.1 支持向量分类 (4)3.1.2 分类问题的识别算法 (4)3.1.3 支持向量机模型 (6)3.2 支持向量机在基因表达数据分析中的应用 (6)3.2.1基因的选择:t统计法 (7)3.2.2 降维方法:PCA和PLS (7)3.2.3 分类结果和评价 (8)4 结论 (12)致谢 (13)参考文献 (13)基因表达数据分析的方法 1 引言随着人类基因组计划的完成,人们逐步关注不同人群、正常与疾病状态下DNA序列的变化。DN
6、A序列的变化是有机体种属之间存在差异或种属内存在差异的根本原因,也是影响有机体正常状态和疾病状态的关键因素,对这些基因型差异进行定位、识别以及分类有着重要的定义,这是研究基因型变化与表型变化关系的第一步,是有针对性地预防和治疗疾病的基础。单核苷酸多态性(SNP)1是人类基因组中最常见的一种变化。获得一个基因的序列之后,下一个问题自然就是:怎样利用已知的基因组序列来认识该基因产品的作用是什么?为了了解一个基因的功能,必须知道该基因在什么时候、什么地方表达,其表达所需要的环境条件是什么?也就是要知道该基因所对应的mRNA产生的时间和环境条件以及mRNA的数量。弄清基因在不同组织中、不同条件下及不同
7、的发展阶段的转录丰度,对于解决上述问题是非常重要的。尽管mRNA不是基因的最终产物,但转录是基因法则的第一步,而且认识基因调节网络需要了解转录水平信息。通过测定基因在某一器官中,不同条件下、不同的发展阶段和不同的组织中的转录水平,可以建立基因表达谱,用以描绘基因组中每一个基因的动态功能。基因表达矩阵是用来描述基因表达数据的矩阵,行代表基因,列代表样本(如:不同的组织,发展阶段和处理);每个格子的数字表示某一基因在某组织(发展阶段或某种处理)中的表达水平。建立这样的矩阵有助于给疾病样本分类,如鉴别肿瘤的类型,以达到最大疗效同时使毒性最低。2 生物技术的发展前景生物技术是20世纪末期,在现代分子生
8、物学等生命科学的基础上,发展起来的一个新兴独立的技术领域,已被广泛应用于医疗保健、农业生产、食品生产、生物加工、资源开发利用、环境保护,对农牧业、制药业及其相关产业的发展有着深刻的影响,成为全球发展最快的高新技术之一。2.1生物信息学的研究现状生物信息学(Bioinformatics)是一门新兴的交叉学科。它所研究的材料是生物学的数据,而它进行研究所采用的方法。则是从各种计算技术衍生出来的2。20世纪50年代,DNA双螺旋结构的阐明开创了分子生物学的时代。以生物学和医学为主要研究内容的生命科学研究从此进入了前所未有的高速发展的阶段。分子生物学和遗传学的文献积累到90年代中期约40多万篇,到20
9、00年则增长至约50万篇,即在约5年间,增长了10万篇。与此同时,更为大量的数据已经不再以传统的文献形式发表了;这里,最为典型的是DNA序列的数据。至2001年初,国际数据库中记录的接近一千万条DNA序列的碱基数已超过110亿!事实上,现在这一数目已达500亿!在今天的一个大型的基因组测序中心,每天可进行十万个测序反应,产生出107的序列数据。自1999年6月开始进入大规模测序阶段,在短短的8个月内,测序能力上升了将近8倍。至2000年6月,这些中心在6个星期内的测序量就相当于一个人的基因组。也就是说,每周7天,每天24小时,每秒即可产生1000个碱基的数据!随着各国政府和工业界对此的重视,资
10、金大量投入。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所 (European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。进而促使测序能力的高速上升,使得DNA序列数据每14个
11、月增长一倍!与上述生物学数据的海量特征相比,生物学数据的复杂特征更具有挑战性。生物学数据的复杂性一方面固然是源于生物体的结构和功能,以及生命活动过程本身的多样性和复杂性,另一方面则是由生物学研究的“社会学原因”所造成的。即生物学的实验数据,一般是在既无标准词法(semantics)、又无句法(syntax)的条件下生成的。这一情况必然进一步加剧生物学数据的复杂性。生物学数据在海量和复杂性方面所提出的挑战是严峻的。2.2 基因芯片与基因表达数据十分幸运的是,在过去的二十多年里,电子计算机芯片对于数字处理的能力的增长基本符合Moore定律(指数增长)。如今的大型计算机的数据处理能力,已经发展到每秒
12、数千亿次乃至数万亿次计算的水平了。有了这一技术支持条件,基因组研究所产生的海量数据,才能够得以有效地加以管理和运行。2.2.1 基因芯片基因芯片(gene chip),又称DNA微阵列(DNA micro array),是由大量DNA或寡核苷酸探针密集排列做形成的探针阵列,其工作的基本原理是通过杂交检测信息。基因芯片把大量已知序列探针集成在同一个基片上,经过标记的若干靶核酸序列通过与芯片特定位置上的探针杂交,便可根据碱基互补匹配的原理确定靶基因的序列,通过处理和分析基因芯片杂交检测图象,可以对生物细胞或组织中大量的基因信息进行分析3。因而,基因芯片能够在同一时间内分析大量的基因,实现生物基因信
13、息的大规模检测。2.2.2 基因表达数据大部分的基因芯片的研究主要是监控基因表达水平,获得基因表达图谱。基因芯片技术是革命性的基因分析,这使得可以监测表达特定组织的基因和比较不同条件下组织的基因表达的等级成为可能,因而,基因表达的数据集已越来越丰富。基因芯片实验将产生大量的数据,管理与分析这些数据是生物信息学所面临的一个挑战。数据管理的目的是为了更好地利用和共享数据,而数据分析的目标则是从大量的实验数据中提取隐含的生物学信息。特别是对基因表达数据在大规模数据集上进行分析、归纳,可以深入了解基因的功能,理解遗传网络,提供许多疾病发病机制的信息。然而,计算与检测能力的提高并没有有效地解决生物学的数
14、据问题。海量的数据通过分析与整理后所产生的有用信息(基因表达数据)量变得更巨大,而最大的挑战则是数据分析。基因芯片的表达监控实验产生大量的数据,在这些数据背后隐藏着丰富的信息,需要通过细致的数据分析揭示这些信息,得到有益的结果。但海量的、复杂的基因表达数据使得这一挑战变得不可能。概括地讲,我们就需要一个好的数据挖掘方法从大型数据库或数据仓库中提取人们感兴趣的、事先未知的、有用的或潜在有用的信息。3 基因表达数据分析的方法就生物信息而言,挖掘生物分子数据库已经过二十多年的历程。以前生物信息学的数据挖掘工作主要集中在序列信息方面,而现在通过分析处理基因表达数据挖掘基因功能信息已成为生物信息学研究的
15、一个重点。 数据挖掘常用的方法有:统计分析、聚类分析、决策树、自组织映射、神经网络、遗传算法等4。在基因表达数据分析研究中,有一个基本假设,即基因在何时、何地表达的信息携带了关于基因功能的信息。这样,数据挖掘的重要应用就是按照基因表达图谱的相似性分类组织基因。这里主要介绍支持向量机方法。3.1 支持向量机支持向量机(support vector machine)是数据挖掘中的一项新技术,它是由Vapnik及其合作者发明。在20世纪90年代中后期得到了全面发展,现已成为机器学习和数据挖掘领域的标准工具。支持向量机是机器学习领域若干标准技术的集成者。它集成了最大间隔超平面、Mercer核、凸二次规
16、划、稀疏解和松弛变量等多项技术5。在若干挑战性的应用中,获得了目前为止最好的性能,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。3.1.1 支持向量分类 支持向量分类的目的是开发有效计算的途径,从而能在高维特征向量空间中学习“好”的分类超平面(优化泛化界),而“有效计算”意味着算法能处理的样本数目在100000数量级上。泛化理性论清楚地说明了如何控制容量,因此通过控制超平面的间隔度量可以抑制拟合,而最优化理论提供了必要的数学技术来找到优化这些度量的超平面。而我们可以把这一类分类问题简化为一个最小化权重向量的范数问题。3.1.2 分类问题的识别算法统计学习理论是针对小样本情况研究统计
17、学习规律的理论,其核心思想是通过控制学习机器的容量实现对推广能力的控制。对于训练样本集(x1 , y1), , (xL , yL) , xRn ,y1,1 (L为样本数,n为输入维数),如果训练数据可以无误差地被划分,并且每一类数据距超平面距离最近的向量与超平面之间的距离最大,见图1,则称这个超平面为最优超平面6。设最优超平面方程为(wx)+ b = 0,其中,“”是向量点积符号。分类判别如下:yi (wx)+ b 1 ,i = 1,2,L (1)在式(1)中,使等号成立的向量称为支持向量(support vector,SV)。在2类样本线性可分情况下,求解基于最优超平面的决策数,可以看成解二
18、次型规划问题,即对于给定训练样本,寻找权值w和偏移b的最优值,使得权值代价函数(w)最小: min(w)= 0.5w2 (2)并满足约束条件(1)。引入拉格朗日乘子 0 ,i = 1,2,L 根据Kuhn-Tucker条件,问题可转化为在约束条件(3)下: ,0 ,i = 1,2,L (3)令泛函w()最大:w()= (4)设,为这个二次型优化问题的解, (5)式中:为属于第1类的某个支持向量,为属于第2类的某个支持向量,则基于最优超平面的分类规划即为指示函数f(x): (6)3.1.3 支持向量机模型 支持向量机的实现基于如下思想7:通过某种事先选择的非线性影射,将输入向量x映射到一个高维特
19、征空间Z,在这个高维空间中构造最优分类超平面,其过程见图2。 特征空间的维数可能会很高,例如要在一个200维空间中构造一个4或5阶多项式,需要构造一个超过10亿维的特征空间。支持向量机采用内积回旋技术较好地解决这一“维数灾难”问题。在Hilbert空间中,内积回旋是指:,其中,Z是输入空间中的向量x在特征空间中的象。根据Hilbert-Schmidt理论,K(x,x)可以是满足一定条件的任意对称函数。为了在特征空间Z中构造最优分类超平面,并不需要以显示形式来考虑特征空间,只需在输入空间中用非线性决策函数: (7)它等价于在高维特征空间中的线性决策函数(K是这个特征空间中内积的一种回旋)。在SV
20、M中构造决策函数式(7)的复杂程度取决于支持向量的数目,而不是特征空间的维数。支持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变化到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。3.2 支持向量机在基因表达数据分析中的应用目前,关于表达数据分析方法的研究仍处于起步阶段。但随着技术的成熟和试验控制标准的引入,学界中已出现了多种有针对性的SVM软件,如Proximal SVM(PSVM)对那些预期协同控制的功能分类能够提供较为准确的预测,并能在训练集(Leave-out-one 交叉验证)分类中达到100%的准确率,而在测验集中也能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因表达数据分析的方法 毕业论文 基因 表达 数据 分析 方法
链接地址:https://www.31ppt.com/p-3940906.html