job partion/queue | limit |
---|---|
tenMin | 10分以内 |
oneHour | 1時間以内 |
threeDay | 3日以内 |
oneWeek | 一週間以内 |
期限を超えた場合、その job は強制終了となる。
デフォルト値: oneWeek
変更する場合: -p jobQueueName or –partition job jobQueueName
デフォルト値: 4GByte
変更する場合: -mem=8000 ← 8GByteに設定
sinfo -s
sinfo --Format="Partition:.9,Available:.7,CPUsState:.15,CPUs:.6,NodeList:.13,Time:.13"
sinfo --Format="NodeHost:.9,Available:.7,CPUsState:.15,CPUsLoad:.10,FreeMem:.10,Weight:.8"
srun command
command を “” などで囲むと command ではなくファイルとみなされる
srun -o output.txt -e error.txt command
output.txt/error.txt は上書きされる
srun bash -c "hostname > host.txt"
srun --cpus-per-task=10 command
srun --mem=40G command
これで、40G 以上のメモリを搭載したノードのみで実行される
srun --exclusive --mincpus=20 command
srun -p tenMin
srun --pty bash
squeue
squeue -o "%all"
例
squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10"
scontrol show job [jobid]
上記の “Format” のコマンドは毎回打つのが大変なので、alias 設定するのが便利。
例えば、${HOME}/.bashrc に以下を記載
alias squeue1="squeue --Format="JobID:6,UserName:.8,Partition:.11,NodeList:.10,NumCPUs:.6,State:.9,SubmitTime:.21,TimeUsed:.10""
次回ログイン以降から、squeue1 と打つと上記のコマンド結果が表示される。
module をバッチ処理で使いたい場合は、以下のようにする
srun bash -c " source /etc/profile.d/modules.sh; module load moduleName; // 計算処理 "
scontrol update NodeName=cXX State=RESUME
slurmd -C