本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
搭配 Amazon Managed Grafana 和 Amazon Managed Service for Prometheus 的 Amazon SageMaker HyperPod 可觀測性
Amazon SageMaker HyperPod (SageMaker HyperPod) 提供全面、開箱即用儀表板,讓您深入了解基礎模型 (FM) 開發任務和叢集資源。這個統一的可觀測性解決方案會自動將關鍵指標發佈至 Amazon Managed Service for Prometheus,並在 Amazon Managed Grafana 儀表板中顯示這些指標。儀表板專為 FM 開發最佳化,深入涵蓋硬體運作狀態、資源使用率和任務層級效能。使用此附加元件,您可以合併來自 NVIDIA DCGM、執行個體層級 Kubernetes 節點匯出工具、Elastic Fabric Adapter、整合檔案系統、Kubernetes API、Kueue 和 SageMaker HyperPod 任務運算子的運作狀態和效能資料。
受限制的執行個體群組 (RIG) 支援
可觀測性附加元件也支援包含受限制執行個體群組的叢集。在 RIG 叢集中,附加元件會自動調整其部署策略,以符合受限節點的網路隔離和安全限制。DaemonSet 元件 (節點匯出器、DCGM 匯出器、EFA 匯出器、Neuron 監視器和節點收集器) 會在標準節點和受限節點上執行。部署元件 (中央收集器、Kube 狀態指標和訓練指標代理程式) 會使用邊界感知邏輯排程,以遵守執行個體群組之間的網路隔離。具有 Fluent Bit 的容器日誌集合不適用於受限節點。
如需在具有限制執行個體群組的叢集上設定附加元件的詳細資訊,請參閱 設定 SageMaker HyperPod 可觀測性附加元件。