生物医学大数据概述课件.ppt
《生物医学大数据概述课件.ppt》由会员分享,可在线阅读,更多相关《生物医学大数据概述课件.ppt(109页珍藏版)》请在三一办公上搜索。
1、生物信息与医学大数据概述,刘雷生物医学研究院 医学系统生物学系2016. 09. 14,2022/12/18,2,生物信息与医学大数据概述,第一部分,2022/12/18,3,生物信息与医学大数据概述,遗传学与基因组学,2022/12/18,4,人类基因组计划之后取得的成就,2022/12/18,5,Nature 2011, 470: 204213,研究内容,数据库建设 数据库整合和数据挖掘 序列分析 结构分析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,2022/12/18,6,数据库建设 数据库整合和数据挖掘 序列分析 结构分
2、析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,研究内容,2022/12/18,7,Roche 454,Illumina HiSeq 2000,ABI SOLiD,数据库建设 数据库整合和数据挖掘 序列分析 结构分析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,研究内容,2022/12/18,8,研究内容,数据库建设 数据库整合和数据挖掘 序列分析 结构分析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,2
3、022/12/18,9,研究内容,数据库建设 数据库整合和数据挖掘 序列分析 结构分析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,2022/12/18,10,研究内容,数据库建设 数据库整合和数据挖掘 序列分析 结构分析与功能预测 大规模功能表达谱的分析 代谢网络建模分析 预测调控网络 网络普遍性分析 模型分析程序开发 商业化,2022/12/18,11,Experiment,Information Technology,Computation,Hardware & instrumentation,Mathematical &
4、Physical Models,DNA SequenceGene & genome organizationMolecular evolutionProtein structure, folding, function & interactionMetabolic pathways regulationSignaling NetworksPhysiology & cell biologyInterspecies interactionEcology & environment,基因组测序Genome sequencing,基因组数据分析Genomic data analysis,统计遗传学St
5、atistical genetics,蛋白质结构预测、折叠、设计Protein structure prediction, protein dynamics, protein folding and design,蛋白质组学Proteomics,功能基因组学(生物芯片等)Functional genomics (microarrays),高科技野外生态学High-tech field ecology,数据格式、标准化及分析复杂生物数据工具Data standards, data representations, and analytical tools for complex biologic
6、al data,动态系统建模Dynamical system modelling,计算生态学Computational ecology,代谢组学metabolomics,转录组学Transcriptomics,生物信息学,12,2022/12/18,计算生物学的复杂性,13,2022/12/18,生物信息学和系统生物学,14,2022/12/18,第二部分,2022/12/18,15,生物信息与医学大数据概述,生命科学大数据的挑战与实践,2022/12/18,16,生命科学大数据的挑战与实践,2022/12/18,17,个性化遗传背景,30亿碱基对,22000个基因,30万蛋白质。个性化遗传差
7、异:300万bp。,2022/12/18,18,人类基因变异的深层目录,1000基因组,2022/12/18,19,1亿3500万,340亿,大于80亿,100万,医学:大数据,2022/12/18,20,The International Nucleotide Sequence Database Collaboration, Nucleic Acids Research, 2011, 15 doi:10.1093/nar/gkr1006,SRA碱基积累率成指数增长。WGS序列仍是传统序列中的组成部分。,INSDC碱基对,分解为选定的数据部分,21,每个碱基与人类基因的检测成本急速下降,202
8、2/12/18,22,Nature Methods 7, 495 - 499 (2010),计算能力与急剧上升的生物数据之间的巨大差距,我们将面临何种挑战?,23,Nature Methods 7, 495 - 499 (2010),计算能力与急剧上升的生物数据之间的巨大差距,我们将面临何种挑战?,24,Illumina / Solexa/HiSeq Genetic Analyzer200 Gb/run/week,Applied Biosystems ABI 3730XL1 Mb /day,Roche / 454 Genome Sequencer FLX 1000 Mb/run/day,App
9、lied BiosystemsSOLiD/HQ 5500 xl300 Gb/run/week,PacficBio Single Molecule Sequencer1000 Mb /day,Roche / Ion Genome Sequencer 1000 Mb/run,新一代测序仪器,2022/12/18,25,Eric S. Lander, 2011, “Initial impact of the sequencing of the human genome” Nature,“The ultimate goal is for sequencing to become so simple a
10、nd inexpensive that it can be routinely deployed as a general-purpose tool throughout biomedicine . , research applications will include characterizing genomes, epigenomes and transcriptomes of humans and other species, as well as using sequencing as a proxy to probe diverse molecular interactions.”
11、 测序的终极目标是变得简单、廉价,成为整个生物医药领域常规的通用的工具。研究应用包括人类及其他物种的基因组、表观基因组、转录组表征,同时也包括利用测序作为代理来探讨不同分子间的相互作用。,2022/12/18,26,基因组学,转录组学,蛋白质组学,代谢组学,表观基因组学,元基因组学,大量数据是生命科学的根本基础。生物数据的规模从GB,TB增长到PB。大数据促进了生命科学的研究与应用。派生出了疾病基因组学,药物基因组学,环境基因组学等等。,生命科学:从实验到数据驱动,2022/12/18,27,新一代测序技术使生物成为了数字科学,2022/12/18,基因组,调控组,表观基因组,转录组,元基因组
12、,生命科学进入信息时代!,28,背景介绍,29,Genome,Rregulation pathways and networks,Transcriptome,CCTGGAGCAC GGAAGATTCT TGCGGACACA AATCGCAACT GCTAAATAAA ATTT,基因组表观基因组,基因组生物信息学管理、整合大量“组学”数据的挑战!,2022/12/18,生命科学大数据的挑战与实践,2022/12/18,30,信息科学面临“大数据”的挑战,存储:磁盘容量与成本的增加。运转:输入/输出限制与传输速度。分析:配备有巨大内存与多个CPU/GPU的电脑服务器。(Interpretation
13、)整合?:异构源的数据整合。可视化:需要新的基因浏览器。,寻求解决途径,31,生物数据的性质,研究水平多种多样从分子、细胞、组织与系统到行为疾病。异构源数据从遗传学&生理学到成像与临床试验。复杂的数据能够同步记录1000个细胞甚至更多。动态的数据生物进程随经历与时间的推移而改变。庞大的数据TB甚至PB都非常普遍。,2022/12/18,32,大数据管理的挑战,科学和技术层面建立可共同操作的数据库。支持信息学研究,开发信息学工具。为研究界提供可持续发展的工具。创建工具开发中心,服务于国家。构建资源和基础设施,云计算等等。社会层面制定规范。组织教育活动(座谈会、研讨会、出版各类文章、文献)。互通性
14、层面形成标准、词汇与知识本体。开发新的系统基础设施与工具。获得如云计算服务等科学界的认可。,2022/12/18,33,“大数据”挑战:需要高性能的计算系统,基因组数据压缩、存储、检索;可重构的计算;云计算。,2022/12/18,34,IBM、Amazon、Life Technology都建有专门针对生命科学研究云计算服务系统。美国众多著名的实验室都是他们在计算、数据存储方面的忠实的客户。,云计算提供了管理、挖掘生物大数据的解决途径,2022/12/18,35,生命科学大数据的挑战与实践,2022/12/18,36,全基因组关联研究和药物基因组学,已完成:疾病相关的基因、SNPs、CNVs、
15、微阵列,蛋白组学,生物标记物,药物代谢途径相关的SNP/基因突变,.人类基因组结构相关的数据与数据库。13篇Nature Genetics论文和2篇New Englang Journal of Medicine论文。,-Supported by MOST,2009-2011, 30 million USD,2022/12/18,37,GWAS和药物基因组学,II型糖尿病病的GWAS研究超过 5000 疾病样本 和 2500-5000 正常参考样本, 1500-2000药物基因组学研究样本。精神分裂症的GWAS研究5000-8000 疾病样本 和 2500-5000 正常参考样本, 1500-2
16、000药物基因组学研究样本。肺癌的GWAS研究超过 5000 疾病样本 和 2500-5000 正常参考样本, 1500-2000药物基因组学研究样本。,2022/12/18,38,高血压的GWAS研究超过 5000 疾病样本 和 2500-5000 正常参考样本, 1500-2000药物基因组学研究样本。食道癌的GWAS研究5000-8000 疾病样本 和 2500-5000 正常参考样本, 1500-2000药物基因组学研究样本。,这个项目将会产生150TB的分子生物数据!相关的综合数据集的数据规模将超过PB!我们怎样才能高效、动态地应对这些?我们需要进行二次数据挖掘的能力!,GWAS和药
17、物基因组学,2022/12/18,39,生命科学大数据的挑战与实践,2022/12/18,40,肿瘤的分子分型和生物标志物发现和中国人群肝癌样本库与分子分型方案的建立,中国人群肝癌的个性化图谱群及分子分型基础,Genotyping and personalize medicine of liver, gastric cancer and diabetes by CAS,2022/12/18,41,通过NGS技术完成超过10000个肝脏、胃癌和糖尿病患者样本的基因分子分型,得到外显子捕获数据,RNA序列数据,蛋白质组和代谢组数据等。使用上千的PDX、PDC模型系统得到所有回应个性化药物的干扰的组
18、学数据。,任务,2022/12/18,42,实验流水线,基因组测序与数据验证,转录组测序与数据验证,表观遗传组测序实验与数据验证,中国人群正常、肝癌(胃癌)病理前瞻、用药回朔样本库+样本详细临床表型信息,SNP、CNV、Indel和可变剪切位点缺损,Genomics,RNA-seq,Epigenomics,组蛋白修饰图谱,Databases & knowledgebases,可作为指征的、多组学分子表型耦合关联的生物标志物和初步分型方案,蛋白质组、组织芯片实验与数据验证,Proteomics&passways,Protein Profiling、PTM、Pathways、metabolomic
19、s,Data integration,编码和非编码RNA分子指纹,2022/12/18,43,数据的整合与挖掘,国内外肿瘤分型研究产出的组学数据、相关基因信息,SNPs,CNVs,Gene expression,proteomics,Methylation,Pathways,具有若干重要疾病表型分类、用药反应的疾病和对照人群和PDC、PDX样本,高深度全外显子/基因组或靶向外显子测序,蛋白质组+修饰组+代谢组+组织芯片,全基因组/编码区域结构变异数据(SNVs、CNVs、methy、 ) + 组蛋白修饰数据 + 转录组(编码和非编码RNA)数据 +肿瘤重要通路功能变异 + 蛋白质组 + 修饰组
20、 + 代谢组数据,Two-level motif based disease related biomarkers,xQTL分析、因果分析(MVL、Bayesian inferences, ),发现可用于疾病重要表型分类的基于两层Motif的疾病生物标志物指纹图谱和初步的肝癌分子分型和个性化药物治疗的初步方案,RNA-Seq测序、全基因组甲基化或组蛋白甲基化修饰测序,中国人群肝癌和胃癌个体化图谱群,中国人群肝癌疾病分型和用药指导生物标志物,临床样本疾病表型、病理分期、生理指标、用药和药物反应等详细的信息,44,数据库结构与系统,2022/12/18,45,各类标准为基础的公共组学平台数据库,这
21、个项目总共会产生超过4PB的组学数据与相关分子数据。,2022/12/18,46,2022/12/18,47,Personal Genome Projects (15K/100K human sample)1000 Genome Projects (UK, China, US)ClinSeq (NHGRI)International Cancer Genome Consortium (Canada)23andMe Research Revolution (US)Cancer Genome Project (European, China, US) 这些会产生上PB的DNA数据。 想一想: 过去
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 数据 概述 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-1786451.html