Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de SageMaker HyperPod lanzamiento de Amazon
Las siguientes notas de la versión muestran las últimas actualizaciones de Amazon SageMaker HyperPod. Estas notas de la versión describen las nuevas funciones, correcciones y mejoras realizadas desde la versión anterior.
SageMaker HyperPod notas de publicación: 10 de septiembre de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.
Nuevas características
-
Se agregó el EKS soporte de Amazon en SageMaker HyperPod. Para obtener más información, consulte Organización de SageMaker HyperPod clústeres con Amazon EKS.
SageMaker HyperPod DLAMIpara el EKS soporte de Amazon
La siguiente es una lista resumida de los paquetes preinstalados o preconfigurados en el soporte de SageMaker HyperPod DLAMIs AmazonEKS. Cada uno DLAMIs se basa en Amazon Linux 2 (AL2) y es compatible con una versión específica de Kubernetes.
AMIsEntre ellas se incluyen las siguientes:
SageMaker HyperPod DLAMIpara el soporte de Slurm
El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre las últimas novedades de HyperPod DLAMI Slurm.
nota
Para obtener instrucciones sobre cómo actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster
-
Se instaló el NVIDIA controlador v5.0.90.07
-
Se instaló el controlador v2.10 EFA
-
Se instaló la última versión de Neuron AWS SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod notas de lanzamiento: 20 de agosto de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
Nuevas características
-
Se mejoró la funcionalidad de SageMaker HyperPod reanudación automática, ampliando la capacidad de resiliencia de los nodos Slurm conectados a Generic (). RESources GRES
Cuando los recursos genéricos (GRES)
se conectan a un nodo de Slurm, Slurm normalmente no permite cambios en la asignación de nodos, como la sustitución de nodos, y, por lo tanto, no permite reanudar un trabajo fallido. A menos que se prohíba explícitamente, la función de HyperPod reanudación automática vuelve a poner en cola automáticamente cualquier trabajo defectuoso asociado a los GRES nodos habilitados. Este proceso implica detener el trabajo, volver a colocarlo en la cola de trabajos y, a continuación, reiniciarlo desde el principio.
Otros cambios
-
Preempaquetado
slurmrestd
en el SageMaker HyperPod AMI. -
Se modificaron los valores predeterminados
UnkillableStepTimeout
de 60 segundos a 300 segundosslurm.conf
para mejorar la capacidad de respuesta del sistema y la gestión de las tareas.ResumeTimeout
-
Se realizaron pequeñas mejoras en las comprobaciones de estado de NVIDIA Data Center GPU Manager (DCGM) y la interfaz de administración del NVIDIA sistema (nvidia-smi).
Correcciones de errores
-
El complemento de HyperPod reanudación automática puede utilizar nodos inactivos para reanudar un trabajo.
Pasos de actualización
-
Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.
importante
Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.
SageMaker HyperPod notas de lanzamiento: 20 de junio de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
Nuevas características
-
Se agregó una nueva capacidad de adjuntar almacenamiento adicional a las instancias SageMaker HyperPod del clúster. Con esta capacidad, puedes configurar el almacenamiento adicional en el nivel de configuración del grupo de instancias durante los procesos de creación o actualización del clúster, ya sea a través de la SageMaker HyperPod consola o del comando
CreateCluster
andUpdateCluster
APIs. El EBS volumen adicional se adjunta a cada instancia de un SageMaker HyperPod clúster y se monta en él/opt/sagemaker
. Para obtener más información sobre cómo implementarlo en su SageMaker HyperPod clúster, consulte la documentación actualizada en las páginas siguientes.Tenga en cuenta que debe actualizar el software del HyperPod clúster para utilizar esta capacidad. Después de aplicar los parches al software de HyperPod clústeres, puedes utilizar esta capacidad para SageMaker HyperPod los clústeres existentes creados antes del 20 de junio de 2024 añadiendo nuevos grupos de instancias. Esta capacidad es totalmente efectiva para cualquier SageMaker HyperPod clúster creado después del 20 de junio de 2024.
Pasos de actualización
-
Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.
importante
Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.
SageMaker HyperPod notas de lanzamiento: 24 de abril de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
Correcciones de errores
-
Se ha corregido un error con el
ThreadsPerCore
parámetro deClusterInstanceGroupSpecification
API. Con la corrección,CreateCluster
y toman y aplicanUpdateCluster
APIscorrectamente la entrada del usuarioThreadsPerCore
. Esta corrección es efectiva en HyperPod los clústeres creados después del 24 de abril de 2024. Si ha tenido problemas con este error y desea aplicar esta corrección a su clúster, debe crear uno nuevo. Asegúrate de hacer copias de seguridad del trabajo y restaurarlo mientras te mueves a un clúster nuevo siguiendo las instrucciones que se indican enUtilice el script de respaldo proporcionado por SageMaker HyperPod.
SageMaker HyperPod notas de lanzamiento: 27 de marzo de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
HyperPod parche de software
El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.
-
En esta versión de HyperPod DLAMI, Slurm se ha creado con REST service (
slurmestd
) con JSONYAML, y JWT soporte. -
Se actualizó Slurm
a la versión 23.11.3
Pasos de actualización
-
Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.
importante
Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.
Mejoras
-
Se aumentó el tiempo de espera del servicio de reanudación automática a 60 minutos.
-
Se mejoró el proceso de reemplazo de instancias para no reiniciar el controlador Slurm.
-
Se han mejorado los mensajes de error al ejecutar scripts de ciclo de vida, como los errores de descarga y los errores de comprobación del estado de la instancia al iniciar la instancia.
Correcciones de errores
-
Se ha corregido un error en el servicio Chrony que provocaba un problema con la sincronización horaria.
-
Se ha corregido un error con el análisis
slurm.conf
. -
Se ha corregido un problema con la NVIDIA
go-dcgm
biblioteca.
SageMaker HyperPod notas de lanzamiento: 14 de marzo de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
HyperPod DLAMIpara el parche de software Slurm
El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.
-
Se actualizó Slurm
a la versión 23.11.1 -
Basado en la base de aprendizaje AWS profundo GPU AMI (Ubuntu 20.04
) publicada el 26 de octubre de 2023 -
Además de la base, incluye una lista completa de los paquetes preinstalados HyperPod DLAMI AMI
-
Slurm
: v23.11.1 -
OpenPMIx :
v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática
-
Pasos de actualización
-
Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.
importante
Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
nota
Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.
Mejoras
-
HyperPod ahora admite correctamente el paso de los nombres de las particiones proporcionados
provisioning_params.json
y crea las particiones de forma adecuada en función de las entradas proporcionadas. Para obtener más información sobreprovisioning_params.json
, consulte SageMaker HyperPod formularios y Personalice SageMaker HyperPod los clústeres mediante scripts de ciclo de vida.
SageMaker HyperPod notas de lanzamiento: 15 de febrero de 2024
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
Nuevas características
-
Se agregó un nuevo
UpdateClusterSoftware
API parche SageMaker HyperPod de seguridad. Cuando los parches de seguridad estén disponibles, te recomendamos que actualices SageMaker HyperPod los clústeres existentes en tu cuentaaws sagemaker update-cluster-software --cluster-name
ejecutándolos. Para hacer un seguimiento de los futuros parches de seguridad, sigue consultando esta página de notas SageMaker HyperPod de lanzamiento de Amazon. Para saber cómoyour-cluster-name
UpdateClusterSoftware
API funciona, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.
SageMaker HyperPod notas de lanzamiento: 29 de noviembre de 2023
SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.
Nuevas características
-
Lanzó Amazon SageMaker HyperPod en AWS re:Invent 2023.
HyperPod parche de software
El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.
-
Basado en la base de aprendizaje AWS profundo GPU AMI (Ubuntu 20.04)
publicada el 18 de octubre de 2023 -
Además de la base, incluye una lista completa de los paquetes preinstalados HyperPod DLAMI AMI
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática
-