SageMaker HyperPod Preguntas frecuentes - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

SageMaker HyperPod Preguntas frecuentes

Utilice las siguientes preguntas frecuentes para solucionar problemas de uso. SageMaker HyperPod

P: ¿Por qué no puedo encontrar los grupos de registros de mi SageMaker HyperPod clúster en Amazon CloudWatch?

De forma predeterminada, los registros de los agentes y los registros de inicio de las instancias se envían a la cuenta de la HyperPod plataforma CloudWatch. En el caso de los scripts del ciclo de vida del usuario, los registros de configuración del ciclo de vida se envían a tu cuenta CloudWatch.

Si utiliza los ejemplos de scripts de ciclo de vida proporcionados por el equipo de HyperPod servicio, encontrará los registros de configuración del ciclo de vida en los /var/log/provision/provisioning.log que se han escrito y no tendrá este problema.

Sin embargo, si utilizas rutas personalizadas para recopilar los registros del aprovisionamiento del ciclo de vida y no encuentras los grupos de registros que aparecen en la de tu cuenta CloudWatch, es posible que no coincidan las rutas de los archivos de registro especificadas en tus scripts de ciclo de vida y lo que busca el CloudWatch agente que se ejecuta en las instancias del HyperPod clúster. En este caso, significa que debe configurar correctamente los scripts de ciclo de vida para enviar los registros al CloudWatch agente y, además, configurar la configuración del CloudWatch agente en consecuencia. Para resolver el problema, elija una de las siguientes opciones.

  • Opción 1: actualice los scripts del ciclo de vida en los que escribir los registros/var/log/provision/provisioning.log.

  • Opción 2: actualice el CloudWatch agente para buscar sus rutas personalizadas para registrar el aprovisionamiento del ciclo de vida.

    1. Cada instancia de HyperPod clúster contiene un archivo de configuración del CloudWatch agente en formato JSON en/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json. En el archivo de configuración, busque el nombre del campologs.logs_collected.files.collect_list.file_path. Con la configuración predeterminada de HyperPod, el par clave-valor debería ser "file_path": "/var/log/provision/provisioning.log" como se documenta en. Registro SageMaker HyperPod a nivel de instancia El siguiente fragmento de código muestra el aspecto del archivo JSON con la configuración predeterminada. HyperPod

      "logs": { "logs_collected": { "files": { "collect_list": [ { "file_path": "/var/log/provision/provisioning.log", "log_group_name": "/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]", "log_stream_name": "LifecycleConfig/[InstanceGroupName]/{instance_id}", "retention_in_days": -1 } ] } }, "force_flush_interval": 3 }
    2. Sustituya el valor del nombre del "file_path" campo por la ruta personalizada que utilice en sus scripts de ciclo de vida. Por ejemplo, si ha configurado los scripts de su ciclo de vida para escribir en ellos/var/log/custom-provision/custom-provisioning.log, actualice el valor para que coincida con él de la siguiente manera.

      "file_path": "/var/log/custom-provision/custom-provisioning.log"
    3. Reinicie el CloudWatch agente con el archivo de configuración para terminar de aplicar la ruta personalizada. Por ejemplo, el siguiente CloudWatch comando muestra cómo reiniciar el CloudWatch agente con el archivo de configuración del CloudWatch agente desde el paso 1. Para obtener más información, consulte también Solución de problemas del CloudWatch agente.

      sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl \ -a fetch-config -m ec2 -s -c \ file:/opt/aws/amazon-cloudwatch-agent/sagemaker_cwagent_config.json

P: ¿Qué configuraciones específicas se HyperPod gestionan en los archivos de configuración de Slurm, como slurm.conf y? gres.conf

Al crear un clúster de Slurm en HyperPod, el HyperPod agente configura los gres.confarchivos slurm.confy /opt/slurm/etc/ para gestionar el clúster de Slurm en función de la solicitud de creación del clúster y de los scripts del ciclo de vida HyperPod . La siguiente lista muestra los parámetros específicos que el HyperPod agente gestiona y sobrescribe.

importante

Le recomendamos encarecidamente que NO cambie estos parámetros gestionados por HyperPod.

  • En slurm.conf, HyperPod configura los siguientes parámetros básicos: ClusterNameSlurmctldHost,PartitionName, yNodeName.

    Además, para habilitar la Reanudación automática funcionalidad, HyperPod requiere que los SchedulerParameters parámetros TaskPlugin y estén configurados de la siguiente manera. El HyperPod agente configura estos dos parámetros con los valores necesarios de forma predeterminada.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • En gres.conf, HyperPod gestiona NodeName los nodos de la GPU.

P: ¿Cómo puedo ejecutar Docker en los nodos de Slurm? HyperPod

Para ayudarlo a ejecutar Docker en los nodos de Slurm en los que se estén ejecutando HyperPod, el equipo de HyperPod servicio proporciona scripts de configuración que puede incluir como parte de la configuración del ciclo de vida para la creación de clústeres. Para obtener más información, consulte Comience con los scripts básicos del ciclo de vida proporcionados por HyperPod y Ejecute contenedores de Docker en un nodo de cómputo de Slurm en HyperPod.

P: ¿Cómo puedo utilizar el almacén local de instancias P de NVMe para lanzar contenedores de Docker o Enroot con Slurm?

Como el volumen raíz predeterminado del nodo principal suele estar limitado a un volumen de EBS de 100 GB, debe configurar Docker y Enroot para que utilicen el almacén de instancias NVMe local. Para obtener información sobre cómo configurar la tienda NVMe y usarla para lanzar contenedores de Docker, consulte. Ejecute contenedores de Docker en un nodo de cómputo de Slurm en HyperPod

P: ¿Cómo configurar los grupos de seguridad de EFA?

Si desea crear un HyperPod clúster con instancias habilitadas para EFA, asegúrese de configurar un grupo de seguridad que permita todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener más información, consulte el paso 1: Preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.

P: ¿Cómo superviso los nodos de mi clúster? HyperPod ¿De dónde se exporta alguna CloudWatch métrica HyperPod?

Para poder observar la utilización de los recursos de su HyperPod clúster, le recomendamos que lo integre con Amazon Managed Grafana y Amazon Managed Service for Prometheus. HyperPod Con varios paquetes de exportación y paneles de Grafana de código abierto, puede exportar y visualizar las métricas relacionadas con los recursos del clúster. HyperPod Para obtener más información sobre la configuración SageMaker HyperPod con Amazon Managed Grafana y Amazon Managed Service for Prometheus, consulte. SageMaker HyperPod monitoreo de recursos de clúster Ten en cuenta que SageMaker HyperPod actualmente no admite la exportación de métricas del sistema a Amazon CloudWatch.

P: ¿Puedo añadir almacenamiento adicional a los nodos del HyperPod clúster? Las instancias del clúster tienen un almacén de instancias local limitado.

Si el almacenamiento de instancias predeterminado no es suficiente para tu carga de trabajo, puedes configurar almacenamiento adicional por instancia. A partir del lanzamiento del 20 de junio de 2024, puedes añadir un volumen adicional de Amazon Elastic Block Store (EBS) a cada instancia de tu clúster. SageMaker HyperPod Tenga en cuenta que esta capacidad no se puede aplicar a los grupos de instancias de SageMaker HyperPod clústeres existentes creados antes del 20 de junio de 2024. Puedes utilizar esta capacidad parcheando SageMaker HyperPod los clústeres existentes creados antes del 20 de junio de 2024 y añadiéndoles nuevos grupos de instancias. Esta capacidad es totalmente efectiva para cualquier SageMaker HyperPod clúster creado después del 20 de junio de 2024.