選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

叢集可觀測性

焦點模式
叢集可觀測性 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要取得叢集資源使用率的可見性,請設定 Amazon CloudWatch Container Insights 和 Amazon Managed Grafana 來擷取指標,並在各種儀表板上將其視覺化。

Amazon CloudWatch Container Insights

使用 Amazon CloudWatch Container Insights 來收集、彙總和摘要與 HyperPod 叢集相關聯之 EKS 叢集上容器化應用程式和微服務中的指標和日誌。

Amazon CloudWatch Insights 會收集運算資源的指標,例如 CPU、記憶體、磁碟和網路。Container Insights 還提供診斷資訊,例如容器重新啟動故障,協助您快速隔離和解決這些故障。您也可以為 Container Insights 收集的指標設定 CloudWatch 警示。

若要尋找指標的完整清單,請參閱《Amazon EKS 使用者指南》中的 Amazon EKS 和 Kubernetes Container Insights 指標

安裝 CloudWatch Container Insights

叢集管理員使用者應依照 CloudWatch 使用者指南中的 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart,依照安裝 CloudWatch 代理程式的指示設定 CloudWatch Container Insights。如需 Amazon EKS 附加元件的詳細資訊,請參閱《Amazon EKS 使用者指南》中的安裝 Amazon CloudWatch 可觀測性 EKS 附加元件

安裝完成後,請確認 CloudWatch Observability 附加元件會顯示在 EKS 叢集附加元件索引標籤中。可能需要幾分鐘的時間,直到儀表板載入為止。

注意

SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更新版本。

CloudWatch Observability service card showing status, version, and IAM role information.

存取 CloudWatch 容器洞見儀表板

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 選擇 Insights,然後選擇 Container Insights

  3. 選取使用 HyperPod 叢集設定的 EKS 叢集。

  4. 檢視 Pod/叢集層級指標。

Performance monitoring dashboard for EKS 叢集 showing node status, resource utilization, and pod metrics.

存取 CloudWatch 容器洞察日誌

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 選擇 Logs (日誌),然後選擇 Log groups (日誌群組)。

當您將 HyperPod 叢集與 Amazon CloudWatch Container Insights 整合時,您可以依下列格式存取相關的日誌群組:/aws/containerinsights /<eks-cluster-name>/*。在此日誌群組中,您可以尋找和探索各種類型的日誌,例如效能日誌、主機日誌、應用程式日誌和資料平面日誌。

設定 Amazon Managed Grafana 工作區

您可以將 SageMaker HyperPod 與 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 整合,以取得各種 Grafana 儀表板中全面的叢集可觀測性和視覺化效果:Kubernetes 叢集監控儀表板、NVIDIA DCGM 匯出工具儀表板和 FSx for Lustre 指標儀表板,以及 EFA 指標儀表板。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。