Monitoramento de recursos de cluster do SageMaker HyperPod
Para uma observabilidade abrangente em seus recursos de cluster e componentes de software do SageMaker HyperPod, integre o cluster ao Amazon Managed Service for Prometheus e ao Amazon Managed Grafana. A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos recursos do cluster HyperPod, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu cluster HyperPod, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas workloads de treinamento distribuídas.
dica
Para encontrar exemplos e soluções práticas, veja também o workshop do SageMaker HyperPod
Figura: este diagrama de arquitetura mostra uma visão geral da configuração do SageMaker HyperPod com o Amazon Managed Service for Prometheus e o Amazon Managed Grafana.
Continue com os tópicos a seguir para configurar a observabilidade do cluster SageMaker HyperPod.
Tópicos
- Pré-requisitos completos para a observabilidade do cluster SageMaker HyperPod
- Instalar pacotes de exportação de métricas em seu cluster do HyperPod
- Valide a configuração do Prometheus no nó principal de um cluster HyperPod
- Configurar um espaço de trabalho do Amazon Managed Grafana
- Referência de métricas exportadas