Ubuntu 建置 SLURM 叢集運算管理環境筆記

基於 Ubuntu 16.04 ,建置一個控制節點 slurm-ctrl,兩個運算節點 slurm-node1 slurm-node2 的環境。
(建置參考 https://www.vpsee.com/2013/02/install-slurm-on-ubuntu/)

建置步驟

# 在控制節點與計算節點安裝 slurm
sudo apt-get install slurm-llnl

# 於控制節點產生 munge key
sudo /usr/sbin/create-munge-key
# 於控制節點啟用 munge 服務
sudo /etc/init.d/munge start
# 把控制节点生成的 munge.key 拷贝到各个计算结点:
scp /etc/munge/munge.key ubuntu@slurm-node1:/etc/munge/
scp /etc/munge/munge.key ubuntu@slurm-node1:/etc/munge/

# 於控制節點生成 slurm.conf 至 /etc/slurm-llnl/
# 並複製到每個計算節點 (每個計算節點 conf 都要一樣)
scp /etc/slurm-llnl/slurm.conf ubuntu@slurm-node1:/etc/slurm-llnl/slurm.conf
scp /etc/slurm-llnl/slurm.conf ubuntu@slurm-node2:/etc/slurm-llnl/slurm.conf
# (slurm 提供網頁的方式產生 config 在 /usr/share/doc/slurmctld/ 內)
# 在控制節點啟用 slurmctld 服務
sudo /etc/init.d/slurmctld start

# 於計算節點啟用 munge & slurmd 服務
sudo /etc/init.d/munge start
sudo /etc/init.d/slurmd start

如果從控制節點無法正常獲得計算節點的狀態,在運算節點重啟 slurmd 服務

sudo /etc/init.d/slurmd stop
sudo /etc/init.d/slurmd startclean

於控制節點中使用 sbatch 提交任務,用法參考:
http://bicmr.pku.edu.cn/~wenzw/pages/quickstart.html

筆記可能有部分 command 沒有列出來,依照實際 terminal 提示訊息應可排除問題。

 

發表留言