叢集可觀測性 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

叢集可觀測性

若要取得叢集資源使用率的可見性,請設定 Amazon CloudWatch Container Insights 和 Amazon Managed Grafana 來擷取指標,並在各種儀表板上將其視覺化。

Amazon CloudWatch Container Insights

使用 Amazon CloudWatch Container Insights 從與EKS叢集相關聯的叢集上容器化應用程式和微服務收集、彙總和摘要指標和日誌 HyperPod 。

Amazon CloudWatch Insights 會收集運算資源的指標,例如 CPU、記憶體、磁碟和網路。Container Insights 還提供診斷資訊,例如容器重新啟動故障,協助您快速隔離和解決這些故障。您也可以針對 Container Insights 收集的指標設定 CloudWatch 警示。

若要尋找指標的完整清單,請參閱 Amazon 使用者指南 中的 Amazon EKS和 Kubernetes Container Insights 指標 EKS

安裝 CloudWatch Container Insights

叢集管理員使用者應依照使用 CloudWatch 使用者指南 中的 Amazon CloudWatch 可觀測性EKS附加元件或 Helm Chart 安裝 CloudWatch 代理程式的指示設定 CloudWatch Container Insights。如需 Amazon EKS附加元件的詳細資訊,請參閱 Amazon 使用者指南 中的安裝 Amazon CloudWatch Observability 附加EKS元件 EKS

安裝完成後,請確認EKS叢集附加元件索引標籤中可以看到 CloudWatch 可觀測性附加元件。可能需要幾分鐘的時間,直到儀表板載入為止。

注意

SageMaker HyperPod 需要 CloudWatch Insight v2.0.1-eksbuild.1 或更新版本。

CloudWatch Observability service card showing status, version, and IAM role information.

存取 CloudWatch 容器洞察儀表板

  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 選擇 Insights ,然後選擇 Container Insights

  3. 選取使用您正在使用的EKS叢集設定的 HyperPod 叢集。

  4. 檢視 Pod/叢集層級指標。

Performance monitoring dashboard for EKS 叢集 showing node status, resource utilization, and pod metrics.

存取 CloudWatch 容器洞察日誌

  1. 在 開啟 CloudWatch 主控台https://console.aws.amazon.com/cloudwatch/

  2. 選擇 Logs (日誌),然後選擇 Log groups (日誌群組)。

當您將 HyperPod 叢集與 Amazon CloudWatch Container Insights 整合時,您可以依下列格式存取相關的日誌群組:/aws/containerinsights /<eks-cluster-name>/*。在此日誌群組中,您可以尋找和探索各種類型的日誌,例如效能日誌、主機日誌、應用程式日誌和資料平面日誌。

設定 Amazon Managed Grafana 工作區

您可以 SageMaker HyperPod 與 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 整合,以取得各種 Grafana 儀表板的全面叢集可觀測性和視覺化效果:Kubernetes 叢集監控儀表板、NVIDIADCGM匯出者儀表板和 FSx for Lustre 指標儀表板,以及EFA指標儀表板。