本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 HyperPod 叢集上安裝指標匯出程式套件
在該 SageMaker HyperPod 小組提供的基本配置生命週期腳本中,還包括各種公制導出程序包的安裝。若要啟動安裝步驟,您唯一需要做的就是在config.py
enable_observability=True
中設定參數。生命週期指令碼的設計目的是使用下列開放原始碼指標匯出程式套件啟動叢集。
名稱 | 指令碼部署目標節點 | 出口商說明 |
Prometheus 的含漿料出口商 |
感測頭 (控制器) 節點 |
出口思倫會計指標. |
計算節點 |
從叢集節點匯出指標和EFA. 該軟件包是 Prometheus |
|
計算節點 |
匯出有關的健全狀況和效能的NVIDIADCGM量度NVIDIAGPUs。 |
在config.py
enable_observability=True
中,會在lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
在計算節點上,指令碼會安裝NVIDIA資料中心GPU管理 (DCGM) 匯出程式和彈性網狀架構介面卡 (EFA) 節點匯出程式。DCGM匯出程式是 Prometheus 的匯出程式,可從中收集指標 NVIDIAGPUs,以監控使GPU用情況、效能和健康狀況。另一方面,EFA節點匯出程式會收集與EFA網路介面相關的指標,這對於叢集中的低延遲和高頻寬通訊至關重要。HPC
在頭節點上,該腳本為 Prometheus 和 Prometheus 開源軟件安裝 Slurm 導出器。
請注意,生命週期指令碼的設計目的是將所有匯出程式套件安裝為 docker 容器,因此 Docker 套件也應安裝在頭節點和計算節點上。這些元件的指令碼可以方便地在 Awsome 分散式訓練 GitHub 存放庫的utils
成功設定與匯出器套件一起安裝的 HyperPod 叢集之後,請繼續進行下一個主題,完成針對 Prometheus 和 Amazon 受管 Grafana 的 Amazon 受管服務設定。