欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    生物信息学高性能计算平台的构建与使用课件.ppt

    • 资源ID:1594223       资源大小:5.89MB        全文页数:77页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学高性能计算平台的构建与使用课件.ppt

    2022/12/9,生物信息学高性能计算平台的构建与使用,提纲,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,2022/12/9,2022/12/9,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,2022/12/9,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,Why Bioinformatics?,2022/12/9,Bioinformatics: What do we need?,What do we need?,满足各种生物信息学分析所需的大规模计算能力的平台,对分子生物信息数据能够快速获取的平台,从互联网快速接入服务器并进行生物信息学分析的平台,Why High Performance Computing(HPC)?,2022/12/9,1,超大规模的数据处理 基因组测序序列: 51020量级 蛋白质折叠计算: 31023 量级 药物设计 平均筛选10000种化合物以上才能得到一种新药,2,超大计算规模的算法 分子动力学模拟 分子相互作网络 分子进化分析 蛋白质结构模拟,3,多用户同时的计算需求 一个和尚、两个和尚、三个和尚,我们的已经完成的工作,满足各种生物信息学分析的HPC,快速获取各种分子生物信息数据,随时从网络接入提交计算任务来分析数据,1. 将多个重要的生物信息数据库本地化安装,2. 建立了一个高性能计算系统,3. 将平台接入校园网/互联网,生物信息学平台的架构,http:/,磁盘存储阵列,万兆网络交换机,数据库系统,高性能服务器,刀片式服务器集群(Cluster),存储系统,高性能计算系统,生物信息学平台硬件与软件系统,What is Cluster(集群)?,2022/12/9,多台计算机通过高速网络连成一个并行计算系统,Why cluster?,2022/12/9,Why cluster?,2022/12/9,普通PC,cluster,Jaguar,Roadrunner,天河1号,K Computer,What is Rocks Cluster?,Rocks Cluster 5.4 的主要功能模块,2022/12/9,我校生物信息学平台拓扑结构图,用户,One Computer!,生物信息平台物理分布视图,生物信息学平台计算机群,数据库节点双路Intel 至强5450处理器2.83GHZ8个核心,32G 内存其他节点8核、16G 内存存储系统30个1 TB硬盘的存储阵列性能指标:208个计算核心2万亿次/秒 浮点运算,以Rocks Cluster为核心的Linux操作环境,为什么选择Unix/Linux来构建平台?,科学研究的通用平台90%以上的科学软件在Unix/Linux下开发多数生物信息学软件只有Unix/Linux版本数量庞大的各种小工具 Sed, awk, vi, emacs, diff, cvs, etc极多的高质量文档免费_ !,各节点的主机名称及IP地址,管理节点主机名称:big.hpc.org; IP地址:202.202.232.201计算节点(26台刀片式服务器)Blade1: compute-0-0compute-0-9Blade2: compute-1-0compute-1-9Blade3: compute-2-0compute-2-5数据库节点:主机名:databaseIP地址:202.202.232.202访问域名:http:/,2022/12/9,平台的并行计算环境,MPI( Message Passing Interface)MPICH2 最基本的MPI,运行简单,应用广泛,效率不高安装路径: /opt/mpich2/gnu/bin/openmpi功能强大、灵活,支持infiniband,效率高安装路径:/opt/openmpi/bin/各计算节点的公共目录/disk1 和 /disk2,容量均为8T,2022/12/9,平台的任务管理系统 SGE,任务管理系统:自动分配计算资源来运行用户的计算任务Sun Grid Engine (SGE)LSFOpenPBS本平台安装的是SGE用户在进行生物信息学计算之前,需要编写SGE计算脚本文件,通过提交脚本文件来使用计算资源。,2022/12/9,其他设备:bio-linux终端计算机,1. 安装了bio-linux系统,图形操作界面 2. 集成了十多种生物信息学软件,免费使用 3. 可迅速连接高性能计算系统进行大规模计算分析,2022/12/9,生物信息学平台的使用方式,使用方式通过校园网或互联网的任意计算机远程登录使用前来我校基础部生命科学楼7楼本地使用,2022/12/9,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,国际生物信息数据库的本地化过程,下载元数据,构建检索系统,发布数据库,已经收录的数据库,Genbank,Uniprot KB,PDB,EMBL,Refseq,Prosite,MRS检索系统,20多个生物医学相关的数据库主要数据库每日更新集成Blast、ClustalW、Jmol等分析工具可将自己的Web-Server程序、数据库发布到互联网,MRS数据库综合检索系统,Entrez The Life Science Search Engine - NCBISRS = Sequence Retrieval System - EBIMRS = Maartens Retrieval System - BIC at TMMUGoogle = Th best generic search and retrieval system,2022/12/9,fast,Linux x86-64 version,free,生物信息数据库的使用,生物信息数据库检索系统:一站式检索,2022/12/9,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,高性能计算系统的使用,Linux基础知识,1,已安装生物信息学软件,2,用户使用流程,3,生物信息学实例分析,4,1、Linux基础知识 什么是Linux?,免费的类Unix操作系统,适合PC机、服务器具有Unix的全部功能,稳定,高效,网络性能优异以Linux为基础的不同的发行版(Distribution):Ubuntu: 适合初学者Debian: Ubuntu的始祖,适合系统管理员Fedora: 适合专业开发者Redhat/CentOS: 适合个人或企业级服务器openSUSE:适合个人办公,Linux很难吗?,看起来很复杂,不知从何下手 实际上上手很快Linux系统不好用 *nux不是用来当桌面的书太多,每本都很厚 推荐OReilly系列,Linux系统的主要组成,Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打印机等硬件设备的核心程序。Linux SHELL: Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口。Linux文件系统: Linux文件系统是文件存放在磁盘等存储设备上的组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、VFAT、ISO9660、NFS、SMB等。Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序集,包括文本编辑器、编程语言、办公套件、Internet工具、数据库等。,Linux命令模式下的基本操作命令,ls 或者 ll: 列出当前目录下全部文件相当于DOS下的dircd : 改变当前目录至指定目录例:zoulybig $ cd /disk1/biosoft/mkdir: 建立文件夹例:zoulybig $ mkdir blast-test cp: 拷贝文件命令例: zoulybig $ cp enzyme.dat /disk1/data/pwd: 查看用户当前所在的路径,Linux命令模式下的基本操作命令,cat:查看文件内容zoulybig $ cat 1OMB.pdbmore: 逐屏显示文件内容vi:新建文件或编辑文件例:zoulybig $ vi 1OMB.pdb mv: 移动文件或目录rm: 删除文件或目录,Linux下解压缩文件,全能的解压缩命令: tar 例:tar xvfj blast2.2.21.tar.bz2tar xvfz blast2.2.21.tar.gztar xvfz blast2.2.21.taztar xvf blast2.2.21.tar,2、平台上已安装的生物信息学软件,如何在平台上运行一个生物软件?,安装在/opt/bio/下面的软件,登录平台后可直接运行例如:zoulybig $ autodock4安装在/disk1/biosoft/下的软件,SSH登录平台后,运行带完整路径的执行程序名例: zoulybig $ /disk1/biosoft/autodock/bin/aotudock4上传软件到自己的目录下使用例:上传Autodock程序到自己的目录 /disk1/zouly/Autodockzoulybig $ ./Autodock4/autodock4,点击演示,如何进入本地数据库的ftp下载原始数据,生物信息数据ftp地址为 ftp:/202.202.232.202 对应的计算网络内的ip为:10.1.1.103 利用Linux 自带的ftp工具进入,命令:ftp 10.1.1.103,2022/12/9,输入用户名: anonymous,即可登陆使用 get 命令可以下载其中的文件到用户目录使用 close命令关闭ftp连接使用quit命令退出ftp程序,2022/12/9,3、用户使用流程介绍,用户申请帐号,SSH方式登录平台,编写计算任务的脚本,提交计算任务,计算完成, 获得结果,3.1 用户账号申请和使用,通过下列电子邮箱申请免费使用帐号bioinfo_申请用户名为姓名拼音与数字的组合,如贾君鹏,可申请用户名 jiajp 或 jiajunpeng 或 jiajp1982,等等申请的帐号和密码将通过邮箱发送给用户用户目录默认在 /disk1或/disk2下,如贾君鹏的目录: /disk1/jiajp,2022/12/9,3.2 登录/退出平台,平台登录的IP地址:202.202.232.201连接校园网和互联网的计算机均可登录通过SSH方式登录平台Windows用户推荐使用Xmanager软件包中的xshell软件来登录Linux用户可直接通过SSH方式登录要登录图形桌面推荐使用VNC Viewer软件进行用户计算机与平台之间上传下载数据推荐使用Xmanager中的xftp来进行以上软件可到http:/ 下载,2022/12/9,使用Xmanager中的Xshell登陆平台,Xshell登陆演示登陆后的个人用户目录位于 /disk1如:用户zouly 登陆后,其用户目录为 /disk1/zouly,2022/12/9,使用Xmamager中的 xshell软件登录平台示例,2022/12/9,视频演示,SSH方式登录成功!,使用XFTP在用户和平台之间上传下载文件,2022/12/9,2022/12/9,本地目录,计算平台用户目录,视频演示,使用VNC Viewer登录图形界面的步骤,第1步:自己的电脑上安装VNC-4.0软件第2步:SSH方式登录平台,然后运行vncserver命令,设定vnc连接密码,确定连接端口号(图中端口号是3)以用户zouly为例,运行vncserver命令:,2022/12/9,第3步,修改用户登陆配置文件 $HOME/.vnc/xstartup如,zouly用户修改 /disk1/zouly/.vnc/xstartup将该文件中最后一行的 twm & 修改为 gnome-session &第4步:启动VNC Viewer,输入202.202.232.201:端口号,第5步: 输入连接密码, 远程图形界面登录成功,视频演示,第6步:退出图形化登陆,删除连接端口号,删除连接端口的命令:vncserver kill :端口号例如:,2022/12/9,3.3 编写计算任务脚本,确定需要使用哪个软件来进行计算分析阅读该软件的使用手册,了解软件的使用方法根据你的计算任务,编写一个SGE计算任务脚本文件,该文件对你需要系统进行计算的任务进行描述。,2022/12/9,Example:使用clustalw-mpi进行多序列比对,2022/12/9,问题:对来自多个菌种的traG蛋白质序列进行比对解决思路:使用并行ClustalW程序ClustalW-mpi,对序列进行多序列比对.参考分析流程:SSH登录系统上传序列文件 traG.fasta 到自己的目录编写SGE脚本文件,提交分析结果,步骤 1:上传待分析的数据 traG.fasta,通过xftp上传数据到用户工作目录 /disk1/zouly/traG,步骤 2:编写mpiblast的计算脚本文件,在工作目录内创建一个文件,如clustalw-mpi.qsub,内容如下,2022/12/9,#!/bin/bash#$ -cwd#$ -j y#$ -S /bin/bash #,clustalw-mpi.qsub 脚本文件内容的含义解析:,公共部分,所有脚本通用,/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi -infile=traG.fasta -outfile=result.aln,声明使用openmpi并行环境,export MPI_DIR=/opt/openmpi/,$MPI_DIR/bin/mpirun,调用mpirun进行并行计算,使用clustalw-mpi进行序列比对的程序命令,/disk1/biosoft/clustalw-mpi/clustalw-mpi-0.15/clustalw-mpi -infile=traG.fasta -outfile=result.aln,clustalw-mpi程序的路径,-infile= 指定输入的序列文件名 -outfile= 指定保存比对结果的文件名,clustalw-mpi程序执行命令解析:,步骤3:向系统提交计算任务,将写好的脚本程序提交到系统,SGE将自动分配计算节点开始计算提交计算任务的命令如下:,zoulybig traG$ qsub -pe orte 16 clustalw-mpi.qsubYour job 54 (clustalw-mpi.qsub) has been submitted,提交计算任务的命令解析:qsub 提交计算任务的命令-pe orte 16 申请使用16 个CPU 计算核心来进行计算clustalw-mpi.qsub 脚本文件的名称,步骤4:查看计算任务状态,查看任务运行状态的命令qstat (查看基本信息)qstat -f (查看计算节点工作状态)qstat -j job-ID (查看正在运行的任务的详细情况),2022/12/9,zoulybig traG$ qstat job-ID prior name user state submit/start at queue - 54 0.55500 clustalw-m zouly r 04/27/2011 15:49:46 all.qcompute-0-9.local,步骤5:查看计算结果,结果保存在result.aln文件中,2022/12/9,使用qdel命令删除已经提交的计算任务,使用命令:qdel job-ID例如,用户提交的计算任务ID号为60,则删除该计算任务的方法: zoulybig t$ qdel 60,2022/12/9,SSH 连接生物信息学平台演示图形方式连接生物信息学平台演示XFTP 上传下载文件使用clustalw-mpi 进行并行计算任务提交演示,2022/12/9,生物信息学平台使用演示,使用平台进行生物信息学分析实例,使用Mauve 比对多个肠道杆菌全基因组,1,使用Modeller进行蛋白质结构建模,2,使用Gromacs进行分子动力学模拟,3,2022/12/9,生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A,Any Question?,生物学中有着至少500年也解决不完的有趣问题。 Donnald E. Knuth (美国著名计算机科学家),思考题,申请一个高性能计算平台账号,登录并运行一个程序在生物信息学中心数据库系统中检索并下载某个蛋白质家族的1000条以上的序列数据,编写计算脚本,使用高性能计算系统进行并行多序列比对,给出比对结果,2022/12/9,77,Thank you!,

    注意事项

    本文(生物信息学高性能计算平台的构建与使用课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开