本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
HyperPod 在 Slurm 組態檔案中管理的特定組態
當您在 HyperPod 上建立 Slurm 叢集時,HyperPod 代理程式會在 設定 slurm.conf
gres.conf
/opt/slurm/etc/
,以根據您的 HyperPod 叢集建立請求和生命週期指令碼來管理 Slurm 叢集。下列清單顯示 HyperPod 代理程式處理和覆寫哪些特定參數。
重要
強烈建議您不要變更 HyperPod 管理的這些參數。
-
在 中
slurm.conf
,HyperPod 會設定下列基本參數: ClusterName
、PartitionName
、SlurmctldHost
和NodeName
。此外,為了啟用 自動繼續功能,HyperPod 需要
TaskPlugin
和SchedulerParameters
參數集,如下所示。HyperPod 代理程式會使用所需的值來設定這兩個參數。TaskPlugin=task/none SchedulerParameters=permit_job_expansion
-
在 中
gres.conf
,HyperPod NodeName
會管理 GPU 節點。