LenovoIntelligentComputingOrchestration管理员手册.docx
《LenovoIntelligentComputingOrchestration管理员手册.docx》由会员分享,可在线阅读,更多相关《LenovoIntelligentComputingOrchestration管理员手册.docx(56页珍藏版)》请在三一办公上搜索。
1、联想智能超算平台 V2.1管理员手册 2015年9月联想企业级业务部门system x解决方案研发中心前言41. 产品简介51.1 运行环境51.2 名词解释52. 使用说明72.1 登陆管理员界面72.1.1 切换到用户态界面82.1.2 查看集群基本状态102.1.3 查看机群详细监控信息112.1.4 查看机群报警信息122.2 用户/账户管理132.2.1 创建用户组152.2.2 修改用户组192.2.3 删除用户组212.2.4 创建计费账户232.2.5 修改费率252.2.6 充值262.2.7 扣款272.2.8 删除计费组282.2.9 创建用户302.2.10 修改用户3
2、32.2.11 删除用户362.2.12 查看更详细账户记录382.2.13 问题分析及解决办法412.3 HPC集群管理422.3.1 查看HPC集群详细信息422.3.2 HPC集群的硬件远程管理432.4 作业调度管理472.4.1 队列管理472.4.2 作业管理482.4.3 作业策略管理483. 注意事项493.1 系统重启493.1.1 IO节点正常工作的时候,管理节点重启503.1.2 IO节点正常工作的时候,计算节点重启513.1.3 IO节点正常工作的时候,登录节点重启523.1.4 IO节点重启533.1.5 整个集群重启543.2 mpi程序的安装位置553.3 用户目
3、录的绝对路径553.4 管理员发布公告和修改管理员联系信息55前言本文档的读者需要具备一定的高性能计算,服务器集群的基础知识,同时对高性能计算中的并行开发,作业调度有一定的了解。1. 产品简介联想智能超算平台是HPC基础管理软件,其功能包括有计算机集群管理,集群监控,作业调度管理,集群用户管理,账户管理,文件系统管理等。本软件基于BS结构,用户可以通过浏览器轻松登陆到管理界面进行操作,也可以通过其他Linux shell工具登陆到集群登陆节点进行命令行操作。1.1 运行环境 服务器:联想system x服务器系列。操作系统:CentOS 6.5 或RedHat 6.5客户端:硬件:CPU主频2
4、.0GHz以上,内存1GB以上。 浏览器:推荐Firefox 或 Chrome。 显示分辨率:推荐1280*8001.2 名词解释计算机集群: 包含管理节点、计算节点等在内的资源的统称。 作业: 完成特定任务的命令序列。 作业状态:是指作业在调度系统中的状态标识,包括等待、排队、保留、运行、挂起、结束。 节点状态:是指节点的状态标识,包括空闲、已占用、繁忙、停机。 作业调度系统: 负责接收、分发、执行、记账作业的分布式程序。管理节点: 运行作业调度,集群管理,用户计费等管理程序的节点。 计算节点: 执行作业的节点。 用户组:定义了对资源的访问控制策略,属于同一个用户组的所有用户可以访问相同的集
5、群资源。计费组:也是计费账户,可以一个用户使用也可以几个用户共享使用。用来对集群使用者进行计费,结算等操作。.2. 使用说明2.1 登陆管理员界面打开浏览器输入集群管理节点的IP地址,端口为8080如:http:/10.240.212.28:8080(客户端必须可以直接访问集群管理节点)。并看到如下示图:图1: 登陆界面用户名的类别分为两种:管理员和操作员。管理员可以看到整个计算机集群和所有用户的信息,而操作员只能看到自己有权限访问的资源和自己的用户信息。如果是管理员用户,输入用户名和密码后,用鼠标点击登陆按钮可以看到管理员界面下图:图2: 管理员主界面2.1.1 切换到用户态界面管理员可以任
6、意切换到用户界面,并且像用户一样使用HPC集群。用鼠标点击右上角其他链接,继而点击切换到用户界面: 图3: 切换到用户界面接下来就可以看到用户界面:图4:用户界面2.1.2 查看集群基本状态在管理员主页上,还可以看到整个集群的基本状态:最顶上一行的导航栏显示了三个按钮图标:主页:当前页,显示集群基本信息。资源:显示HPC集群所有机器的详细信息页。详情见2.3用户: 用户管理页,管理员可以对用户/组,账户/费率做一些基本操作。详情见2.2进入主页后,可以看到以下信息:集群名字 (注:集群名字可以在/etc/cluster.conf中通过属性DOMAIN来配置,如DOMAIN=,但是集群名字必须符
7、合域名命名规则)。调度器:调度器服务的状态,绿色代表调度器工作正常,红色代表调度器没有正常工作。并行文件系统:并行文件系统的状态,绿色代表调并行文件系统工作正常,红色代表并行文件系统没有正常工作。网络吞吐:服务器集群网络的吞吐量,包括读速率和写速率。集群CPU: 服务器集群CPU的利用率,包括已经被占用的CPU核数和集群总共具有的CPU核数。集群内存:服务器集群内存的利用率,包括已经被占用的内存大小和集群总共具有的内存大小。集群存储:服务器集群存储空间的利用率,包括已经被占用的存储空间大小和集群总共具有的存储空间大小。作业:显示作业的历史信息,包括运行中的作业数,等待中的作业数和结束的作业数。
8、管理员可以选择显示全部队列的作业数,也可以指定显示某个队列的作业数。时间上可以选择分别显示:过去一小时,过去一天,过去七天,过去三十天的作业数。类型上可以选择分别显示未完成和已完成的作业数。节点占用情况:显示计算机集群中节点占用的情况:包括忙碌,占用,空闲和关机。 判断这些节点占用情况的主要依据是各个节点的平均每分钟的进程负载量。2.1.3 查看机群详细监控信息用鼠标点击右上角其他链接,继而点击查看详细监控信息: 图5-1:查看详细监控信息用户界面图5-2:查看详细监控信息用户界面2.1.4 查看机群报警信息如果集群中部署了报警模块, 用鼠标点击右上角其他链接,继而点击查看报警信息,查看Nag
9、ios报警信息图6:查看报警信息2.2 用户/账户管理用户管理中有三个概念:用户,用户组和计费组(也称计费账户)。用户组:一组HPC集群用户,他们具有相同的队列访问权限。它的属性如下:组名:用户组的名字。用户组的状态:包括有“正常”、“创建中”、“更新中”、“删除中”和“无效”。用户数:所包含的用户数目。可用队列:可以访问的队列的名称(队列必须事先创建好,创建详情可以参照章节2.4.1 队列管理)。最近更新:最近一次信息更新的时间以及相关的消息。计费组(计费账户):计费账号,可以被一个用户独自使用,也可以被多个用户共享使用。当计费组成员在集群中运行应用程序时,所属计费组账户中的费用会根据其运行
10、的应用程序占用的CPU核数和时间进行扣除。它的属性如下:组名:计费组名字。费率:单位机时所用金额。若费率为1,代表这个计费组的任何成员若占用1个CPU core,时间为1小时,那就要付1块钱。已用机时:成员的应用程序一共占用了多少:CPU(核数) * 时间(秒)。已用金额:该计费组的成员总共所花费的金额。由于费率可以根据需要调整变化,当前已用金额可能不等于当前已用机时*当前费率。剩余金额:该计费组里还剩下的金额。最近更新:最近一次更新的时间以及相关的消息。用户:HPC机群的个体用户。它的属性如下:角色:管理员或操作员。管理员可以看到整个集群的状况。操作员只能看到和自己相关的队列,作业的状况。用
11、户名:用户名字。用户组:所属用户组。计费组:所属计费组。密码:用户密码。用户的状态:包括有“正常”、“创建中”、“更新中”、“删除中”和“无效”。电子邮箱:用户电子邮箱。最近登录时间:用户最近一次登录的时间。最近更新:对该用户的最近一次信息更新的时间以及相关的消息。2.2.1 创建用户组管理员首先需要创建用户组,在系统初始化时,系统已经创建一个用户组(默认是default_os_group)。建议管理员创建新的用户组来使用。图7:用户组管理界面点击“添加”按钮,弹出如下对话框:图7-1:创建用户组界面管理员可以输入系统中还未使用的用户组名,并选择可用队列。(队列必须事先创建好,创建详情可以参照
12、章节2.4.1 队列管理)系统初始化配置完成以后,系统内部有一个默认队列:batch. 它的acl_group_enable被设为false. 也就意味着它不可以被某一个用户组独占,所有用户组的用户都可以访问。因此这里是必选。在本例中,图示里还有一个队列为管理员事先创建好的队列:queuetest1和queuetest2。queuetest1的acl_group_enable属性为false,这也就意味着它也不可以被某一个用户组独占,所有用户组的用户都可以访问。因此该队列是必选的。queuetest2的acl_group_enable属性为true,这也就意味着管理员可以将该队列分配给某些特定
13、的用户组使用,该队列并不是所有用户组的用户都可以访问。因此该队列是可选的。图7-2:创建用户组界面图7-3:添加用户组界面点击“确定”按钮后,系统开始创建该用户组,结果如下图所示:图7-4:添加用户组界面等待一段时间后,该用户组创建完成。图7-5:添加用户组界面2.2.2 修改用户组管理员在创建完用户组以后,还可以对用户组进行修改:修改该用户组所能访问的队列的信息。选择该用户组记录前面的选择框,然后点击“编辑”按钮,弹出如下对话框。图8-1:编辑用户组界面在对队列信息进行修改以后,点击确定按钮,系统开始更新该用户组的队列信息,如下图所示:图8-2:用户组更新界面等待一段时间后,该用户组更新完成
14、。图8-3:用户组更新完成界面2.2.3 删除用户组管理员在创建用户组以后,还可以将该用户组删除。选择该用户组记录前面的选择框,然后点击“删除”按钮,弹出如下对话框。图9-1:删除用户组界面点击“确定”按钮,系统开始删除该用户组。图9-2:用户组删除界面等待一段时间后,该用户组删除完成。图9-3:用户组删除完成界面2.2.4 创建计费账户管理员接下来需要创建计费账户,在系统初始化时,已经创建一个计费组/账户(默认是default_bill_group)。建议管理员创建新的计费组来使用。图9-1:添加计费组界面点击“添加”按钮,可以看到如下对话框:图9-2:添加计费组界面输入系统中还未使用的计费
15、组的名称、费率和初始金额。费率为单位机时所用金额。若费率为1,代表这个计费组的任何成员若占用1个CPU core,时间为1小时,那就要付1块钱。点击“确定”按钮并等待一些时间,该计费组创建成功。结果如下图所示:图9-3:添加计费组界面2.2.5 修改费率选中计费组,点击“修改费率”按钮,可以看到如下对话框:图10-1:修改费率界面点击“确定”后,如下图示图10-2:修改费率界面2.2.6 充值选中计费组,点击“充值”按钮,可以看到如下对话框:图11-1:充值界面点击“确定”按钮并等待一段时间后,充值成功,如下图所示:图11-2:修改费率界面2.2.7 扣款选中计费组,点击“扣款”按钮,可以看到
16、如下对话框:图12-1:扣款界面点击“确定”按钮并等待一段时间后,扣款成功,如下图所示:图12-2:扣款界面2.2.8 删除计费组管理员可以将不再使用的计费组进行删除。选择该计费组记录前面的选择框,然后点击“删除”按钮,弹出如下对话框:图13-1:删除计费组界面点击“确认”按钮,系统开始删除该计费组,等待一段时间后,该计费组被成功删除。图13-2:删除计费组界面2.2.9 创建用户管理员接下来可以创建用户了。在初始化时,已经创建一个管理员用户(用户名默认是hpcadmin)。图14-1:创建用户界面点击“添加”按钮,可以看到如下图示:图14-2:创建用户界面输入系统中还未使用的用户名、密码、角
17、色、所属用户组、计费组、电子邮箱等信息。点击“确定”按钮后,系统开始创建该用户,该过程需要等待一些时间。图14-3:创建用户界面该用户创建成功后,该用户可以“正常”登录。结果如下图示:图14-4:创建用户界面2.2.10 修改用户管理员可以对用户的各种信息:角色、密码、所属用户组、所属计费组、邮箱等进行修改。选择其中某个用户记录前面的单选框,然后点击“编辑”按钮,弹出如下对话框。图15-1:修改用户界面在对某些信息进行修改后,图15-2:修改用户界面点击“确定”按钮,系统开始更新该用户的信息(更新过程中,该用户将无法登录该系统)。图15-3:用户修改界面等待一段时间后,该用户状态恢复“正常”。
18、图15-4:修改用户成功界面注意:修改用户所属的计费组的时候,需要手动重启调度服务:service maui.d restart。2.2.11 删除用户管理员可以将已有用户进行删除。选择其中某个用户记录前面的单选框,然后点击“删除”按钮,弹出如下对话框。图16-1:删除用户界面点击“确定”按钮,系统将开始删除该用户(删除过程中,该用户将无法登录该系统)。图16-2:删除用户界面稍等一段时间,该用户将从系统中彻底删除。图16-3:删除用户界面2.2.12 查看更详细账户记录打开浏览器,输入 “https:/管理节点IP” 后跟 “cgi-bin/gold/index.cgi”, 例如https:
19、/10.240.212.28/cgi-bin/gold/index.cgi结果如下图示:输入默认用户名/密码:root/Passw0rd可以得到下图:从左边导航栏选择Account - List Account, 可以看到两个accounts, 名字分别为 default_bill_group和 demo_bill_group。它们正是我们初始创建和后来通过界面创建的两个计费账户。查看其详细内容,可以看到它们所属的project也和账户重名。account内的数字相当于 账户金额*3600 从左边导航栏选择Project - List Project看到如下信息:查看其详细内容,可以看到每个p
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- LenovoIntelligentComputingOrchestration 管理员 手册
链接地址:https://www.31ppt.com/p-1845454.html