unix:slurmusage
Slurm
使い方
ユーザー編
デフォルト設定値
job partion/queue | limit |
---|---|
tenMin | 10分以内 |
oneHour | 1時間以内 |
threeDay | 3日以内 |
oneWeek | 一週間以内 |
期限を超えた場合、その job は強制終了となる。
job が投入される partition/queue
デフォルト値: oneWeek
変更する場合: -p jobQueueName or –partition job jobQueueName
job の最大利用メモリ量
デフォルト値: 4GByte
変更する場合: -mem=8000 ← 8GByteに設定
host/queue の確認
sinfo -s
queue(partition) の状況
sinfo --Format="Partition:.9,Available:.7,CPUsState:.15,CPUs:.6,NodeList:.13,Time:.13"
host の状況
sinfo --Format="NodeHost:.9,Available:.7,CPUsState:.15,CPUsLoad:.10,FreeMem:.10,Weight:.8"
job の投入
srun command
command を “” などで囲むと command ではなくファイルとみなされる
標準出力/標準エラーをファイルに出力
srun -o output.txt -e error.txt command
output.txt/error.txt は上書きされる
pipe/redirect などを含む command
srun bash -c "hostname > host.txt"
10個のコアを使用する場合
srun --cpus-per-task=10 command
多くのメモリを使用する場合
srun --mem=40G command
これで、40G 以上のメモリを搭載したノードのみで実行される
最低 20 個以上のコアでできるだけ多く使いたい
srun --exclusive --mincpus=20 command
queue/partiton の指定
srun -p tenMin
interactive (対話) モードでの使用
srun --pty bash
job の確認
squeue
すべての 情報を表示
squeue -o "%all"
例
squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10"
詳細情報
scontrol show job [jobid]
その他
上記の “Format” のコマンドは毎回打つのが大変なので、alias 設定するのが便利。
例えば、${HOME}/.bashrc に以下を記載
alias squeue1="squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10""
次回ログイン以降から、squeue1 と打つと上記のコマンド結果が表示される。
module
module をバッチ処理で使いたい場合は、以下のようにする
srun bash -c " source /etc/profile.d/modules.sh; module load moduleName; // 計算処理 "
管理者編
node を復活させる
scontrol update NodeName=cXX State=RESUME
node のスペック確認
slurmd -C
unix/slurmusage.txt · 最終更新: by editor