【集群】Slurm作业调度系统的使用

最近使用集群进行实验，记录并学习集群系统进行深度学习的实验过程。集群所使用的作业调度系统为Slurm，这里记录下使用的常用命令和一些注意事项。

Slurm简介

Slurm是一个开源，容错，高度可扩展的集群管理和作业调度系统，适用于大型和小型Linux集群。Slurm不需要对其操作进行内核修改，并且相对独立。作为集群工作负载管理器，Slurm有三个关键功能。
1 它在一段时间内为用户分配对资源（计算节点）的独占和/或非独占访问，以便他们可以执行工作。
2 它提供了一个框架，用于在分配的节点集上启动，执行和监视工作（通常是并行作业）。
3 它通过管理待处理工作的队列来仲裁资源争用。

调度系统主要作用

单一系统映像

解决集群结构松散问题；统一用户接口，使用简化；

系统资源整合

管理异构资源和异构系统；

多任务管理

统一管理任务，避免冲突；

资源访问控制

基于策略的资源访问控制；

简单来讲，调度系统是面向集群的操作系统。

Slurm三种模式

1 批处理作业（采用sbatch命令提交，最常用方式）

对于批处理作业（提交后立即返回该命令行终端，用户可进行其它操作）使用sbatch命令提交作业脚本，作业被调度运行后，在所分配的首个节点上执行作业脚本。在作业脚本中也可使用srun命令加载作业任务。提交时采用的命令行终端终止，也不影响作业运行。

2 交互式作业提交（采用srun命令提交）

资源分配与任务加载两步均通过srun命令进行：当在登录shell中执行srun命令时，srun首先向系统提交作业请求并等待资源分配，然后在所分配的节点上加载作业任务。采用该模式，用户在该终端需等待任务结束才能继续其它操作，在作业结束前，如果提交时的命令行终端断开，则任务终止。一般用于短时间小作业测试。这种方式类似于正常的通过命令行运行程序。需要一直保持连接状态

3 实时分配模式作业（采用salloc命令提交）

分配作业模式类似于交互式作业模式和批处理作业模式的融合。用户需指定所需要的资源条件，向资源管理器提出作业的资源分配请求。提交后，作业处于排队，当用户请求资源被满足时，将在用户提交作业的节点上执行用户所指定的命令，指定的命令执行结束后，运行结束，用户申请的资源被释放。在作业结束前，如果提交时的命令行终端断开，则任务终止。典型用途是分配资源并启动一个shell，然后在这个shell中利用srun运行并行作业。

注

（1）salloc后面如果没有跟定相应的脚本或可执行文件，则默认选择/bin/sh，用户获得了一个合适环境变量的shell环境。
（2）salloc和sbatch最主要的区别是salloc命令资源请求被满足时，直接在提交作业的节点执行相应任务，而sbatch则当资源请求被满足时，在分配的第一个节点上执行相应任务。
（3）salloc在分配资源后，再执行相应的任务，很适合需要指定运行节点和其它资源限制，并有特定命令的作业。

常用命令

sbatch：提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务
sinfo：显示分区或节点状态，可以通过参数选项进行过滤、和排序
squeue：显示队列的作业及作业状态
scancel：取消排队或运行中的作业
scontrol：显示或设定slurm作业、分区、节点等状态
sacctmgr：显示和设置账户关联的QOS等信息
sacct：显示历史作业信息
srun：运行并行作业，具有多个选项，如：最大和最小节点数、处理器数、是否
指定和排除节点。

命令详情

（1）查看分区——sinfo
在这里插入图片描述

（2）查询排队和运行状态的作业——squeue

在这里插入图片描述
（3）删除作业命令——scancel

（4）控制作业命令——scontrol

常用术语

user：用户名
node：泛指计算节点
core：CPU核
job：作业
job step：作业步，单个作业（job）可以有多个作业步
partition：分区（可理解为LSF、PBS等作业调度系统中的队列），作业需在特定分区中运行，一般不同分区之间资源不一样
QOS：服务质量，可理解为用户可使用的CPU、内存等资源限制
tasks：任务数，默认一个任务使用一个CPU核，可理解为作业所需的CPU核数
socket：CPU插槽，可理解为物理CPU颗数
stdout：标准输出文件，程序运行正常时输出信息的文件，一般指输出到屏幕的信息
stderr：标准错误文件，程序运行出错时输出信息的文件，一般指输出到屏幕的信息

常用环境变量

SLURM_NODELIST当前作业被分配的节点列表SLURM_JOB_NODELIST当前作业被分配的节点列表SLURM_JOB_NAME当前作业的作业名称SLURMD_NODENAME当前作业执行任务的主机名SLURM_NODE_ALIASES当前作业执行节点的主机别名SLURM_ARRAY_JOB_ID当前组数作业的ID号码SLURM_ARRAY_TASK_ID当前数组作业的任务ID号SLURM_ARRAY_TASK_COUNT当前数组作业的任务总数SLURM_ARRAY_TASK_MAX当前数组作业的最大任务ID号SLURM_ARRAY_TASK_MIN当前数组作业的最小任务ID号SLURM_ARRAY_TASK_STEP当前数组作业任务ID号增长步长SLURM_NNODES当前作业使用的节点数目SLURM_JOBID当前作业ID号SLURM_JOB_ID当前作业ID号SLURM_TASKS_PER_NODE当前作业每个节点任务数SLURM_JOB_USER当前作业执行用户SLURM_JOB_UID当前作业实行用户的UIDSLURM_NODEID当前作业执行时主机编号（每个任务从0开始）SLURM_SUBMIT_DIR当前作业提交时所在目录SLURM_TASK_PID当前任务执行时的进程号SLURM_CPUS_ON_NODE当前作业执行时做个节点使用的cpu数目SLURM_PROCID当前作业执行时CPU的号码SLURM_LOCALID当前作业节点上的本地任务的ID号SLURM_JOB_GID当前作业执行用户的GIDSLURM_JOB_CPUS_PER_NODE当前作业执行时每节点使用的CPU数目SLURM_CLUSTER_NAME当前作业执行时所在的slurm集群名称SLURM_GTIDS当前作业在节点上运行时的全局任务ID号，以0为原点，逗号隔开SLURM_SUBMIT_HOST当前作业的提交主机名称SLURM_JOB_PARTITION当前作业提交时所用的partitionSLURM_JOB_NUM_NODES当前作业所用的节点总数（单位：个）SLURM_MEM_PER_NODE当前作业每个节点使用的内存（单位：M）SLURM_MEM_PER_CPU当前作业每个节点上的每个CPU占用的内存大小

作业提交

这里记录使用 sbatch 进行作业调度

使用sbatch命令提交作业方式，sbatch命令在脚本正确传递给作业调度系统后立即退出，同时获取一个作业号。作业等所需资源满足后开始运行，一般脚本的格式为 .sh 或者 .script 文件。
sbatch提交一个批处理作业脚本到调度系统。批处理脚本名可以在命令行上通过传递给sbatch，也可以定义在批处理脚本中，如果没有指定文件名，则sbatch从标准输入中获取脚本内容。
脚本文件基本格式：
第一行以#！/bin/bash等指定改脚本的解释程序，/bin/bash可以变为/bin/sh、/bin/csh等。
在可执行命令之前的每行“#SBATCH”前缀后跟的参数作为作业调度系统的参数。
默认情况下，标准输出和标准错误都定向到同一个文件slurm-%j.out，“%j”将被作业号代替。

作业脚本基本结构如下：
1 第一行是脚本语言解释器的路径，一般选择 bash 作为解释器

#!/bin/bash

2 若干行由 #SBATCH 引导的 Slurm 设置选项，例如

#SBATCH --partition=hpxg     #申请分区 `hpxg` 的计算资源   #SBATCH --nodes=1            #申请 1 个节点#SBATCH --ntasks-per-node=1  #申请每个节点上分配一个任务(进程)#SBATCH --time=06:00:00      #计划最多运行 6 小时

3 计算程序运行需要设置的环境变量，例如

#可以查看GPU的运行和使用情况#nvidia-smi#which nvidia-smi#nvidia-smiconda activate environmentcd /home/codeDir/

4 运行程序的命令，例如

python mycode.py

完整实例：

编辑脚本文件

vi test.sh

文本内容实例

#!/bin/bash -l#SBATCH --job-name="myTest"#SBATCH --partition=Pnamw#SBATCH --nodes=1#SBATCH --ntasks-per-node=1#SBATCH --cpus-per-task=1#SBATCH --output=/home/testWorks.%j.out#SBATCH --error=/home/testWorks.%j.err#SBATCH --gpus=2#nvidia-sminvidia-smiwhich nvidia-sminvidia-smiconda activate environmentpython mai.py

提交运行脚本文件

sbatch test.sh

脚本常用命令

-J,--job-name 指定作业名称-N,--nodes 节点数量-n,--ntasks 使用的CPU核数--mem 指定每个节点上使用的物理内存-t,--time 运行时间，超出时间限制的作业将被终止-p,--partition 指定分区--reservation 执行资源预留名称-w,--nodelist 指定特定的节点-x,--exclude 分配给作业的节点中不要包含指定节点--ntasks-per-node 指定每个节点使用几个CPU核心--begin 指定作业开始时间-D，--chdir 指定脚本/命令的工作目录--export-file= 通过文件filename设定环境变量。文件中的环境变量格式为NAME=value，变量之间通过空格分隔。-o，--output= 采用--output可以将其重定向到同一文件中--gpus 运行程序所需GPU的数量

squeue命令结果详情

在这里插入图片描述
结果列头信息

JOBID：作业号
PARITION：分区名
NAME：作业名
USER：用户名
ST：状态，常见的状态包括
NODELIST(REASON):分配给的节点名列表（原因）

其中ST常见状态包括：

PD、Q：排队中，PENDINGR：运行中，RUNNINGCA：已取消，CANCELLEDCG：完成中，COMPLETIONGF：已失败，FAILEDTO：超时，TIMEOUTNF：节点失效，NODE FAILURECD：已完成，COMPLETED

NODELIST(REASON):分配给的节点名列表（原因）常见信息：

AssociationJobLimit：作业达到其最大允许的作业数限制AssociationResourceLimit：作业达到其最大允许的资源限制AssociationTimeLimit作业：作业达到时间限制Resource：作业等待期所需资源可用QOSJobLimit：作业的QOS达到其最大的作业数限制QOSResourceLimit：作业的QOS达到其最大资源限制QOSTimeLimit：作业的QOS达到其最大时间限制PartitionNodeLimit：作业所需的节点超过所用分区当前限制PartitionTimeLimit：作业所需的分区达到时间限制Priority ：作业所需的分区存在高等级作业或预留NodeDown：作业所需的节点宕机JobHeldUser：作业被用户自己挂起InvalidQOS：作业的QOS无效
Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions：作业所需的节点已关闭、耗尽或保留给优先级较高的分区中的作业

scancel 取消任务

用户使用scancel命令取消自己的作业。命令格式如下：
scancel jobid
jobid可通过squeue获得。对于排队作业，取消作业将简单地把作业标记为CANCELLED状态而结束作业。对于运行中或挂起的作业，取消作业将终止作业的所有作业步，包括批处理作业脚本，将作业标记为CANCELLED状态，并回收分配给作业的结点。

在这里插入图片描述

挂起作业

scontrol hold job_list
scontrol hold job_list命令可使得排队中尚未运行的作业（设置优先级为0）暂停被分配运行，被挂起的作业将不被执行，这样可以让其他作业优先得到资源运行。被挂起的作业在使用squeue命令查询显示时NODELIST（REASON）状态标志为JobHelduser(被用户自己挂起)或JobheldAdmin(被系统管理员挂起)，利用scontrol release job_list 可取消挂起。

其他常用命令

1 查看节点状态
sinfo
在这里插入图片描述

PARRITION：节点所在分区。
AVAIL：分区状态，up标识可用，down标识不可用。
TIMELIMIT：程序运行最大时长，infinite表示不限制，
限制格式为days-houres:minutes:seconds。
NODES：节点数。
NODELIST：节点名列表。
STATE：节点状态，可能的状态包括
1 allocated、alloc ：已分配
2 completing、comp：完成中
3 down：宕机
4 drained、drain：已失去活力
5 fail：失效
6 idle：空闲
7 mixed：混合，节点在运行作业，但有些空闲CPU核，可接受新作业
8 reserved、resv：资源预留
9 unknown、unk：未知原因
注意：如果状态带有后缀*，表示节点没有响应

2 主要参数

-a、–all
显示全部分区信息
-d、–dead
仅显示无响应或已宕机节点
-i
以秒间隔持续自动更新显示信息
-I
显示详细信息
-n
显示指定节点信息
-N
以每行一个节点方式显示信息，即显示各节点信息
-p
显示分区信息
-r
仅显示响应节点信息
-R
显示不响应（down、drained、fail或者failing状态）节点的原因
-o
按照格式输出信息，type[:[.]size],
默认为“%#P %5a %.101 %.6D %.6t %N”
1 %all：所有字段信息。
2 %a：分区的状态及是否可用。
3 %A：以“allocated/idle”格式显示状态对应的节点信息
4 %B：分区中每个节点可分配给作业的core数。
5 %c：各节点core数。
6 %C：以“allocated/idle/other.total”格式显示core数。
7 %D：节点数。
8 %e：节点空闲内存。
9 %E：节点无效的原因。
10 %g：可使用此节点的用户组。
11 %n：节点主机名。
12 .：指明为右对齐，默认为左对齐。
13 size：最小字段大小，如没有指明，则最大为20个字符

查看节点信息

scontorl show node [node]$: scontrol show node node4CPUAlloc=0 CPUErr=0 CPUTot=32 CPULoad=44.09AvailableFeatures=(null)ActiveFeatures=(null)Gres=(null)NodeAddr=node4 NodeHostName=node4RealMemory=64000 AllocMem=0 FreeMem=72333 Sockets=32 Boards=1State=DOWN* ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/APartitions=batchBootTime=None SlurmdStartTime=NoneCfgTRES=cpu=32,mem=62.50G,billing=32AllocTRES=CapWatts=n/aCurrentWatts=0 LowestJoules=0 ConsumedJoules=0ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/sCPUAlloc：该节点已分配的core数量CPUTot：该节点core总数CPULoad：该节点负载情况NodeHostName：该节点主机名Partitions：该节点属于哪个分区RealMemory：该节点内存大小State：该节点状态值

查看分区信息

scontrol show partition$:scontrol show partitionPartitionName=batchAllowGroups=ALL AllowAccounts=ALL AllowQos=ALLAllocNodes=ALL Default=YES QoS=N/ADefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NOMaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 LLN=NO MaxCPUsPerNode=UNLIMITEDNodes=node4PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NOOverTimeLimit=NONE PreemptMode=OFFState=UP TotalCPUs=32 TotalNodes=1 SelectTypeParameters=NONEDefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITEDDisableRootJobs:不允许root提交作业Maxtime：最大运行时间LLN：是否按最小负载节点调度Maxnodes：最大节点数Hidden：是否为隐藏分区Default：是否为默认分区OverSubscribe：是否允许超时ExclusiveUser：排除的用户

张士玉小黑屋

当前位置：首页 » 《随便一记》 » 正文

【集群】Slurm作业调度系统的使用

23 人参与 2023年04月03日 15:36 分类 : 《随便一记》评论

最近使用集群进行实验，记录并学习集群系统进行深度学习的实验过程。集群所使用的作业调度系统为Slurm，这里记录下使用的常用命令和一些注意事项。

Slurm简介

相关的名词

调度系统主要作用

Slurm三种模式

常用命令

命令详情

常用术语

常用环境变量

作业提交

脚本常用命令

squeue命令结果详情

scancel 取消任务

挂起作业

其他常用命令

查看节点信息

查看分区信息

评论（0）

赞助本站

search zhannei

最新文章

张士玉小黑屋

当前位置：首页 » 《随便一记》 » 正文

【集群】Slurm作业调度系统的使用

23 人参与 2023年04月03日 15:36 分类 : 《随便一记》 评论

最近使用集群进行实验，记录并学习集群系统进行深度学习的实验过程。集群所使用的作业调度系统为Slurm，这里记录下使用的常用命令和一些注意事项。

Slurm简介

相关的名词

调度系统主要作用

Slurm三种模式

常用命令

命令详情

常用术语

常用环境变量

作业提交

脚本常用命令

squeue命令结果详情

scancel 取消任务

挂起作业

其他常用命令

查看节点信息

查看分区信息

评论（0） 赞助本站

search zhannei

最新文章

23 人参与 2023年04月03日 15:36 分类 : 《随便一记》评论

评论（0）

赞助本站