基於 Ubuntu 16.04 ,建置一個控制節點 slurm-ctrl,兩個運算節點 slurm-node1 slurm-node2 的環境。
(建置參考 https://www.vpsee.com/2013/02/install-slurm-on-ubuntu/)
建置步驟
# 在控制節點與計算節點安裝 slurm sudo apt-get install slurm-llnl # 於控制節點產生 munge key sudo /usr/sbin/create-munge-key # 於控制節點啟用 munge 服務 sudo /etc/init.d/munge start # 把控制节点生成的 munge.key 拷贝到各个计算结点: scp /etc/munge/munge.key ubuntu@slurm-node1:/etc/munge/ scp /etc/munge/munge.key ubuntu@slurm-node1:/etc/munge/ # 於控制節點生成 slurm.conf 至 /etc/slurm-llnl/ # 並複製到每個計算節點 (每個計算節點 conf 都要一樣) scp /etc/slurm-llnl/slurm.conf ubuntu@slurm-node1:/etc/slurm-llnl/slurm.conf scp /etc/slurm-llnl/slurm.conf ubuntu@slurm-node2:/etc/slurm-llnl/slurm.conf # (slurm 提供網頁的方式產生 config 在 /usr/share/doc/slurmctld/ 內) # 在控制節點啟用 slurmctld 服務 sudo /etc/init.d/slurmctld start # 於計算節點啟用 munge & slurmd 服務 sudo /etc/init.d/munge start sudo /etc/init.d/slurmd start
如果從控制節點無法正常獲得計算節點的狀態,在運算節點重啟 slurmd 服務
sudo /etc/init.d/slurmd stop sudo /etc/init.d/slurmd startclean
於控制節點中使用 sbatch 提交任務,用法參考:
http://bicmr.pku.edu.cn/~wenzw/pages/quickstart.html
筆記可能有部分 command 沒有列出來,依照實際 terminal 提示訊息應可排除問題。