Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod monitoraggio delle risorse del cluster
Per ottenere un'osservabilità completa nelle risorse del SageMaker HyperPod cluster e nei componenti software, integra il cluster con Amazon Managed Service for Prometheus e Amazon Managed Grafana. L'integrazione con Amazon Managed Service for Prometheus consente l'esportazione di metriche relative alle HyperPod risorse del cluster, fornendo informazioni sulle loro prestazioni, utilizzo e integrità. L'integrazione con Amazon Managed Grafana consente la visualizzazione di queste metriche attraverso varie dashboard Grafana che offrono un'interfaccia intuitiva per il monitoraggio e l'analisi del comportamento del cluster. Sfruttando questi servizi, ottieni una visione centralizzata e unificata del HyperPod cluster, facilitando il monitoraggio proattivo, la risoluzione dei problemi e l'ottimizzazione dei carichi di lavoro di formazione distribuiti.
Figura: questo diagramma di architettura mostra una panoramica della configurazione con SageMaker HyperPod Amazon Managed Service for Prometheus e Amazon Managed Grafana.
Passa ai seguenti argomenti per configurare l'osservabilità del cluster. SageMaker HyperPod
Argomenti
- Prerequisiti completi per SageMaker HyperPod l'osservabilità del cluster
- Installa i pacchetti Metrics Exporter sul tuo cluster HyperPod
- Convalida la configurazione di Prometheus sul nodo principale di un cluster HyperPod
- Configura uno spazio di lavoro Amazon Managed Grafana
- Riferimento alle metriche esportate