監控 SageMaker HyperPod 叢集資源 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 SageMaker HyperPod 叢集資源

若要全面觀察您的 SageMaker HyperPod 叢集資源和軟體元件,請將叢集與適用於 Prometheus 和 Amazon 受管 Grafana 的 Amazon 受管服務整合。與 Prometheus 專用的 Amazon 受管服務整合可讓您匯出與 HyperPod 叢集資源相關的指標,從而深入瞭解其效能、使用率和運作狀態。與 Amazon 受管的 Grafana 整合可透過各種 Grafana 儀表板呈現這些指標的視覺化,這些儀表板提供用於監控和分析叢集行為的直覺式介面。利用這些服務,您可以獲得集中且統一的 HyperPod 叢集檢視,並促進分散式訓練工作負載的主動監控、疑難排解和最佳化。

提示

要找到實際的例子和解決方案,另請參閱SageMaker HyperPod研討會。

使用 Amazon Prometheus SageMaker HyperPod 和 Amazon 託管 Grafana 託管服務進行配置的概述。

圖:此架構圖顯示了 SageMaker HyperPod 使用適用於 Prometheus 和 Amazon 託管 Grafana 的 Amazon 託管服務進行配置的概述。

繼續執行下列主題,以設定 SageMaker HyperPod 叢集可觀測性。