《用户使用手册》PPT课件.ppt
《《用户使用手册》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《用户使用手册》PPT课件.ppt(35页珍藏版)》请在三一办公上搜索。
1、中国科学院合肥分院物质科学计算中心,浪潮天梭用户手册,目录,集群硬件配置集群软件配置登录、退出系统主要目录使用计算任务投放软件安装及使用规范关机和启动维护人员联系方式,一:集群硬件配置,集群物理拓扑图,用户,提交作业,编译调试可视化,集群的并行配置信息,Inspur group,集群硬件配置,112个NX7140N计算刀片(双路四核Nehalem 2.8GHz处理器,DDR3 3GB/core)一个刀片为两颗CPU,8核心,最大内存为24Gb 24 Xeon X7460(2.66GHz/6c)/16M L3/1066MHz,4GB/core 共两个胖节点,每个胖节点四颗CPU,24核心,最大内
2、存为96Gb 16.2T容量的LUSTRE并行文件系统 8T容量的存储系统(4Gb光纤存储)1个登陆节点和管理节点,2个网格节点 高速互联网络环境(20Gbps InfiniBand计算网络+1000M管理网络)合肥分中心的聚合计算能力为10万亿次/秒,总存储容量24.2T。,二:集群软件配置,三:登录、退出系统,1.登录方式 SSH:缺省提供,该登录方式有一定强度的加密安全保证 软件可以使用Putty,Sshclient,Xmanager等2.文件上传与下载 SFTP:缺省提供,暂不提供FTP方式Windows下传送文件:Sshclient,Xmanager等自带文件传输功能 软件还可以使用
3、SecureFX、WinSCP等Linux下传送文件:scp-r 文件夹名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/scp 文件名 dyliu202.127.207.132:/lustre/ISSP2/dyliu/,三:登录、退出系统,3.长时间误操作,请结束访问,避免占用系统资源4.结束系统访问必要操作 非停电、断网等意外设备故障导致,严禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。SSH访问必需主动使用exit命令一到多次确保最终结束连接。5.为安全考虑,系统具有防火墙配置,用户如果发现在非断网情况下无法登陆节点,有可能是自己的IP
4、不在防火墙允许的IP段,需要查看自己的IP地址,把IP段告知管理员开放。,登陆天梭集群系统:提交作业 登陆节点 ssh-l your count 用户可以在登录节点查看目录、编辑文件、查看提交作业情况等。但是用户不允许在登录节点运行计算程序或前后处理程序,也不允许进行程序编译。编译、调试、可视化 胖节点1 ssh-l your count 用户可以登录编译节点(胖节点1)进行程序编译。第一次登陆,修改密码 yppasswd username 设置环境变量 vi/.bashrc source/opt/intel/impi/3.1/bin64/mpivars.sh h 保存退出后 source/.
5、bashrc,三:登录、退出系统,四:主要目录使用,主目录:为登录后缺省进入的目录/home/每用户默认限制容量为50Gb,用于安装自用软件,备份文件,保存计算结果文件 主目录用于系统存放管理用户的登陆和所使用软件配置文件,可以安装个人所需软件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令 du-kh|sort n主动检查异常或较大的文件并作相应清理。2.工作目录:/lustre/yourid总容量9.6TB,单用户无容量限制,作为运算临时文件目录,请及时删除临时文件,三个月内无访问的文件将被系统自动删除,
6、存储空间使用,系统使用lustre并行文件系统提高I/O性能,作为工作目录,由于其承载压力较大,容易出现硬盘故障,因此,该目录只存放计算中的临时文件,请及时将结果文件备份回主目录或自己的个人电脑中。主目录(home)只允许存放最终结果文件,严禁将运算临时目录指向属主目录,如违规操作,造成属主目录损坏,管理员有权追究其责任。主目录有磁盘配额限制,如需扩大容量(例如需要安装专用软件),可向管理员申请协调。应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。工作目录(lustre)中存放的临时文件,请及时清除,管理员会定期清理长时间无访
7、问文件,如因未及时备份而被误删,管理员不承担任何责任。严禁在主目录中存放无关文件,如发现违反,管理员将调低该用户磁盘配额。,五:计算任务投放,1.不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。总内存利用不能超过(平均每刀片节点:24Gb+8Gb(swap);大内存任务投放至胖节点队列(fuque):96Gb+16Gb(swap),否则会造成作业杀不掉、死机等情况。2.大规模资源占用(占用
8、实际内存超过1/4)或紧急任务时务必先联系管理员协调。3.计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令,如果无法删除必要时联系管理员协助。4.应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5.不能在主目录(home)下存放任务临时文件,提交作业时必须指定作业输出路径为工作目录(lustre)。6.不能在登陆节点上直接运行任务,只能在登陆节点提交查看作业、简单的 vi编辑、查看、管理自己的数据以及程序。,PBS基本组件pbs command:用于提交、监视、修改和删除作业。pbs
9、 server:提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。scheduler(maui):对用户提交的作业进行调度,五:计算任务投放,在登录节点,用户必须通过作业脚本提交作业!,作业调度软件采用Pro PBS,计算任务是通过脚本文件提交到作业管理系统的。,PBS基本命令qsub 作业提交脚本qstat 参数qdel 作业号,五:计算任务投放,(1)提交作业的命令 qsub 作业提交脚本 此命令执行后,会给出个作业号(2)查询作业命令 qstat 参数-q 列出
10、系统队列信息-Q:列出队列的一些限制信息-an:列出队列中的所有作业-r:列出正在运行的作业-f jobid:列出指定作业在信息-Qf queue:列出指定队列的所有信息-B:列出PBS服务器的相关信息,目前可用队列:paraque 并行队列,可用资源:108 nodes x 8核心;serique 串行队列,可用资源:4 nodes x 8 核心;fuque 胖节点队列,可用资源:2 nodes x 24核心,(3)作业删除命令 qdel 作业号 其中作业号为qsub提交后系统所给出的一个号码注意事项 1、非root用户只能查看、删除自己提交的作业 2、在提交作业时一定要根据自己的使用的机器
11、数估算内存,选择正确的队列:串行作业一定要放在serique队列,并行作业放在paraque,大内存需求(24Gb)作业放在fuque队列。3、检查PBS脚本是否正确,一定要严格按照规范格式书写。不规范的PBS脚本可导致作业提交失败,甚至造成作业杀不掉,计算刀片死机等。,五:计算任务投放,提交作业,查询作业(1),五:计算任务投放,作业管理,查询作业(2),查询作业(3),作业管理,五:计算任务投放,删除作业,作业管理,五:计算任务投放,五:计算任务投放,作业脚本的编写基本参数#!/bin/bash#PBS-d/lustre/ISSP2/dyliu/workdir#PBS-o/lustre/I
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用户使用手册 用户 使用手册 PPT 课件
链接地址:https://www.31ppt.com/p-5554200.html