SageMaker HyperPod 叢集可觀察性的先決條件 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集可觀察性的先決條件

在繼續執行的步驟之前在 HyperPod 叢集上安裝指標匯出程式套件,請確定符合下列先決條件。

啟用IAM識別中心

若要啟用 SageMaker HyperPod 叢集的可觀察性,您必須先啟用IAM身分識別中心。這是部署的先決條件 AWS CloudFormation 為 Prometheus 設置 Amazon 託管 Grafana 工作區和 Amazon 託管服務的堆棧。這兩項服務也需要 IAM Identity Center 進行驗證和授權,以確保監控基礎結構的使用者存取和管理安全。

如需啟用IAM身分識別中心的詳細指引,請參閱「啟用IAM身分識別中心」一節 AWS IAM身分識別中心使用者指南

成功啟用 IAM Identity Center 之後,請設定一個使用者帳戶,該帳戶將在以下組態中擔任系統管理使用者。

建立和部署 AWS CloudFormation 可 SageMaker HyperPod 觀察性堆疊

使用適用於 Prometheus 和 Amazon 受管 Grafana 的 Amazon 受管服務,建立和部署可 SageMaker HyperPod 觀察性的 CloudFormation 堆疊,以便即時監控 HyperPod 叢集指標。若要部署堆疊,請注意,您也應該事先啟用IAM身分識別中心

使用可協助您設定 Amazon VPC 子網路、Amazon to Lustre 檔案系統、Amazon FSx S3 儲存貯體,以及建立 HyperPod 叢集可觀察性堆疊所需IAM角色的範例 CloudFormation 指令碼cluster-observability.yaml