目次

Slurm

使い方

ユーザー編

デフォルト設定値

job partion/queuelimit
tenMin10分以内
oneHour1時間以内
threeDay3日以内
oneWeek一週間以内

期限を超えた場合、その job は強制終了となる。

job が投入される partition/queue

デフォルト値: oneWeek
変更する場合: -p jobQueueName or –partition job jobQueueName

job の最大利用メモリ量

デフォルト値: 4GByte
変更する場合: -mem=8000 ← 8GByteに設定

host/queue の確認

sinfo -s

queue(partition) の状況

sinfo --Format="Partition:.9,Available:.7,CPUsState:.15,CPUs:.6,NodeList:.13,Time:.13"

host の状況

sinfo --Format="NodeHost:.9,Available:.7,CPUsState:.15,CPUsLoad:.10,FreeMem:.10,Weight:.8"

job の投入

srun command

command を “” などで囲むと command ではなくファイルとみなされる

標準出力/標準エラーをファイルに出力

srun -o output.txt -e error.txt command

output.txt/error.txt は上書きされる

pipe/redirect などを含む command

srun bash -c "hostname > host.txt"

10個のコアを使用する場合

srun --cpus-per-task=10 command

多くのメモリを使用する場合

srun --mem=40G command

これで、40G 以上のメモリを搭載したノードのみで実行される

最低 20 個以上のコアでできるだけ多く使いたい

srun --exclusive --mincpus=20 command

queue/partiton の指定

srun -p tenMin

interactive (対話) モードでの使用

srun --pty bash

job の確認

squeue
すべての 情報を表示
squeue -o "%all"

squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10"
詳細情報
scontrol show job [jobid]

その他

上記の “Format” のコマンドは毎回打つのが大変なので、alias 設定するのが便利。
例えば、${HOME}/.bashrc に以下を記載

alias squeue1="squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10""

次回ログイン以降から、squeue1 と打つと上記のコマンド結果が表示される。

module

module をバッチ処理で使いたい場合は、以下のようにする

srun bash -c "
  source /etc/profile.d/modules.sh; module load moduleName;
  // 計算処理
"

管理者編

node を復活させる

scontrol update NodeName=cXX State=RESUME

node のスペック確認

slurmd -C