SageMaker HyperPod monitoraggio delle risorse del cluster - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SageMaker HyperPod monitoraggio delle risorse del cluster

Per ottenere un'osservabilità completa nelle risorse del SageMaker HyperPod cluster e nei componenti software, integra il cluster con Amazon Managed Service for Prometheus e Amazon Managed Grafana. L'integrazione con Amazon Managed Service for Prometheus consente l'esportazione di metriche relative alle HyperPod risorse del cluster, fornendo informazioni sulle loro prestazioni, utilizzo e integrità. L'integrazione con Amazon Managed Grafana consente la visualizzazione di queste metriche attraverso varie dashboard Grafana che offrono un'interfaccia intuitiva per il monitoraggio e l'analisi del comportamento del cluster. Sfruttando questi servizi, ottieni una visione centralizzata e unificata del HyperPod cluster, facilitando il monitoraggio proattivo, la risoluzione dei problemi e l'ottimizzazione dei carichi di lavoro di formazione distribuiti.

Una panoramica della configurazione SageMaker HyperPod con Amazon Managed Service for Prometheus e Amazon Managed Grafana.

Figura: questo diagramma di architettura mostra una panoramica della configurazione con SageMaker HyperPod Amazon Managed Service for Prometheus e Amazon Managed Grafana.

Passa ai seguenti argomenti per configurare l'osservabilità del cluster. SageMaker HyperPod