Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Observabilidad de clústeres

Modo de enfoque
Observabilidad de clústeres - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Para obtener visibilidad de la utilización de los recursos del clúster, configure Amazon CloudWatch Container Insights y Amazon Managed Grafana para extraer métricas y visualizarlas en varios paneles.

Información sobre CloudWatch contenedores de Amazon

Utilice Amazon CloudWatch Container Insights para recopilar, agregar y resumir las métricas y los registros de las aplicaciones y microservicios en contenedores del clúster de EKS asociado a un clúster. HyperPod

Amazon CloudWatch Insights recopila métricas de los recursos informáticos, como la CPU, la memoria, el disco y la red. Información de contenedores también proporciona información de diagnóstico, como, por ejemplo, errores de reinicio de contenedores, para ayudarlo a aislar problemas y solucionarlos rápidamente. También puede configurar CloudWatch alarmas en las métricas que recopila Container Insights.

Para obtener una lista completa de las métricas, consulte Métricas de Información de contenedores de Kubernetes y de Amazon EKS en la Guía del usuario de Amazon EKS.

Instale CloudWatch Container Insights

Los usuarios administradores de clústeres deben configurar CloudWatch Container Insights siguiendo las instrucciones que se indican en Instalar el CloudWatch agente mediante el complemento Amazon CloudWatch Observability EKS o el diagrama de Helm de la Guía del CloudWatch usuario. Para obtener más información sobre el complemento Amazon EKS, consulte también Instalar el complemento Amazon CloudWatch Observability EKS en la Guía del usuario de Amazon EKS.

Una vez finalizada la instalación, compruebe que el complemento CloudWatch Observability esté visible en la pestaña del complemento del clúster EKS. Es posible que pasen unos minutos hasta que se cargue el panel.

nota

SageMaker HyperPod requiere la versión CloudWatch Insight v2.0.1-eksbuild.1 o posterior.

CloudWatch Observability service card showing status, version, and IAM role information.

Acceda CloudWatch al panel de información sobre contenedores

  1. Abra la CloudWatch consola en https://console.aws.amazon.com/cloudwatch/.

  2. Elija Información y, a continuación, Información de contenedores.

  3. Seleccione el clúster EKS configurado con el HyperPod clúster que está utilizando.

  4. Consulte las métricas del pod/clúster.

Performance monitoring dashboard for EKS clúster showing node status, resource utilization, and pod metrics.

Acceda a los registros de información sobre CloudWatch contenedores

  1. Abra la CloudWatch consola en https://console.aws.amazon.com/cloudwatch/.

  2. Elija Logs (Registros) y, a continuación, elija Log groups (Grupo de registro).

Cuando tenga los HyperPod clústeres integrados con Amazon CloudWatch Container Insights, podrá acceder a los grupos de registros correspondientes en el siguiente formato:/aws/containerinsights /<eks-cluster-name>/*. En este grupo de registros, puede buscar y explorar varios tipos de registros, como, por ejemplo, los registros de rendimiento, los registros de host, los registros de aplicaciones y los registros del plano de datos.

Configuración de un espacio de trabajo de Amazon Managed Grafana

Puede realizar la integración SageMaker HyperPod con Amazon Managed Grafana y Amazon Managed Service for Prometheus para obtener una observabilidad integral de los clústeres y visualizarlos en varios paneles de Grafana: el panel de monitoreo de clústeres de Kubernetes, el panel de exportación de NVIDIA DCGM, el panel de métricas de for Lustre y el panel de métricas de EFA. FSx

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.