本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
若要取得叢集資源使用率的可見性,請設定 Amazon CloudWatch Container Insights 和 Amazon Managed Grafana 來擷取指標,並在各種儀表板上將其視覺化。
Amazon CloudWatch Container Insights
使用 Amazon CloudWatch Container Insights 來收集、彙總和摘要與 HyperPod 叢集相關聯之 EKS 叢集上容器化應用程式和微服務中的指標和日誌。
Amazon CloudWatch Insights 會收集運算資源的指標,例如 CPU、記憶體、磁碟和網路。Container Insights 還提供診斷資訊,例如容器重新啟動故障,協助您快速隔離和解決這些故障。您也可以為 Container Insights 收集的指標設定 CloudWatch 警示。
若要尋找指標的完整清單,請參閱《Amazon EKS 使用者指南》中的 Amazon EKS 和 Kubernetes Container Insights 指標。
安裝 CloudWatch Container Insights
叢集管理員使用者應依照 CloudWatch 使用者指南中的 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart,依照安裝 CloudWatch 代理程式的指示設定 CloudWatch Container Insights。如需 Amazon EKS 附加元件的詳細資訊,請參閱《Amazon EKS 使用者指南》中的安裝 Amazon CloudWatch 可觀測性 EKS 附加元件。
安裝完成後,請確認 CloudWatch Observability 附加元件會顯示在 EKS 叢集附加元件索引標籤中。可能需要幾分鐘的時間,直到儀表板載入為止。
注意
SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更新版本。

存取 CloudWatch 容器洞見儀表板
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 -
選擇 Insights,然後選擇 Container Insights。
-
選取使用 HyperPod 叢集設定的 EKS 叢集。
-
檢視 Pod/叢集層級指標。

存取 CloudWatch 容器洞察日誌
透過 https://console.aws.amazon.com/cloudwatch/
開啟 CloudWatch 主控台。 -
選擇 Logs (日誌),然後選擇 Log groups (日誌群組)。
當您將 HyperPod 叢集與 Amazon CloudWatch Container Insights 整合時,您可以依下列格式存取相關的日誌群組:/aws/containerinsights /<eks-cluster-name>/*
。在此日誌群組中,您可以尋找和探索各種類型的日誌,例如效能日誌、主機日誌、應用程式日誌和資料平面日誌。
設定 Amazon Managed Grafana 工作區
您可以將 SageMaker HyperPod 與 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 整合,以取得各種 Grafana 儀表板中全面的叢集可觀測性和視覺化效果:Kubernetes 叢集監控儀表板、NVIDIA DCGM 匯出工具儀表板和 FSx for Lustre 指標儀表板,以及 EFA 指標儀表板。