在 HyperPod 叢集上安裝指標匯出程式套件 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 HyperPod 叢集上安裝指標匯出程式套件

在該 SageMaker HyperPod 小組提供的基本配置生命週期腳本中,還包括各種公制導出程序包的安裝。若要啟動安裝步驟,您唯一需要做的就是在config.py檔案enable_observability=True中設定參數。生命週期指令碼的設計目的是使用下列開放原始碼指標匯出程式套件啟動叢集。

名稱 指令碼部署目標節點 出口商說明
Prometheus 的含漿料出口商 感測頭 (控制器) 節點

出口思倫會計指標.

彈性織物適配器 (EFA) 節點出口商

計算節點

從叢集節點匯出指標和EFA. 該軟件包是 Prometheus 節點出口商的分支。

NVIDIA資料中心GPU管理 (DCGM) 匯出程式

計算節點

匯出有關的健全狀況和效能的NVIDIADCGM量度NVIDIAGPUs。

config.py檔案enable_observability=True中,會在lifecycle_script.py指令碼中啟動下列安裝步驟。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

在計算節點上,指令碼會安裝NVIDIA資料中心GPU管理 (DCGM) 匯出程式和彈性網狀架構介面卡 (EFA) 節點匯出程式。DCGM匯出程式是 Prometheus 的匯出程式,可從中收集指標 NVIDIAGPUs,以監控使GPU用情況、效能和健康狀況。另一方面,EFA節點匯出程式會收集與EFA網路介面相關的指標,這對於叢集中的低延遲和高頻寬通訊至關重要。HPC

在頭節點上,該腳本為 Prometheus 和 Prometheus 開源軟件安裝 Slurm 導出器。Slurm 匯出程式為 Prometheus 提供與 Slurm 工作、分割區和節點狀態相關的指標。

請注意,生命週期指令碼的設計目的是將所有匯出程式套件安裝為 docker 容器,因此 Docker 套件也應安裝在頭節點和計算節點上。這些元件的指令碼可以方便地在 Awsome 分散式訓練 GitHub 存放庫utils資料夾中提供。

成功設定與匯出器套件一起安裝的 HyperPod 叢集之後,請繼續進行下一個主題,完成針對 Prometheus 和 Amazon 受管 Grafana 的 Amazon 受管服務設定。