Notas de SageMaker HyperPod lanzamiento de Amazon - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de SageMaker HyperPod lanzamiento de Amazon

Las siguientes notas de la versión muestran las últimas actualizaciones de Amazon SageMaker HyperPod. Estas notas de la versión describen las nuevas funciones, correcciones y mejoras realizadas desde la versión anterior.

SageMaker HyperPod notas de publicación: 10 de septiembre de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

SageMaker HyperPod DLAMIpara el EKS soporte de Amazon

La siguiente es una lista resumida de los paquetes preinstalados o preconfigurados en el soporte de SageMaker HyperPod DLAMIs AmazonEKS. Cada uno DLAMIs se basa en Amazon Linux 2 (AL2) y es compatible con una versión específica de Kubernetes.

AMIsEntre ellas se incluyen las siguientes:

Deep Learning EKS AMI 1.28
  • EKSComponentes de Amazon

    • Versión de Kubernetes: 1.28.11

    • Versión contenedora: 1.7.20

    • Versión Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente de Amazon: 3.3.380

  • Núcleo de Linux: 5.10.223

  • OSSNVIDIAcontrolador: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2.4

  • NVIDIAkit de herramientas para contenedores: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3,0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • EKSComponentes de Amazon

    • Versión de Kubernetes: 1.29.6

    • Versión contenedora: 1.7.20

    • Versión Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente de Amazon: 3.3.380

  • Núcleo de Linux: 5.10.223

  • OSSControlador Nvidia: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedores Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3,0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • EKSComponentes de Amazon

    • Versión de Kubernetes: 1.30.2

    • Versión contenedora: 1.7.20

    • Versión Runc: 1.1.11

    • AWS IAMAutenticador: 0.6.21

  • SSMAgente de Amazon: 3.3.380

  • Núcleo de Linux: 5.10.223

  • OSSControlador Nvidia: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstalador: 1.32.0

  • GDRCopy: 2.4

  • Kit de herramientas de contenedores Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3,0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod DLAMIpara el soporte de Slurm

El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre las últimas novedades de HyperPod DLAMI Slurm.

nota

Para obtener instrucciones sobre cómo actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI, consulte. Actualice el software de la SageMaker HyperPod plataforma de un clúster

  • Se instaló el NVIDIA controlador v5.0.90.07

  • Se instaló el controlador v2.10 EFA

  • Se instaló la última versión de Neuron AWS SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod notas de lanzamiento: 20 de agosto de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

Nuevas características

  • Se mejoró la funcionalidad de SageMaker HyperPod reanudación automática, ampliando la capacidad de resiliencia de los nodos Slurm conectados a Generic (). RESources GRES

    Cuando los recursos genéricos (GRES) se conectan a un nodo de Slurm, Slurm normalmente no permite cambios en la asignación de nodos, como la sustitución de nodos, y, por lo tanto, no permite reanudar un trabajo fallido. A menos que se prohíba explícitamente, la función de HyperPod reanudación automática vuelve a poner en cola automáticamente cualquier trabajo defectuoso asociado a los GRES nodos habilitados. Este proceso implica detener el trabajo, volver a colocarlo en la cola de trabajos y, a continuación, reiniciarlo desde el principio.

Otros cambios

  • Preempaquetado slurmrestden el SageMaker HyperPod AMI.

  • Se modificaron los valores predeterminados UnkillableStepTimeout de 60 segundos a 300 segundos slurm.conf para mejorar la capacidad de respuesta del sistema y la gestión de las tareas. ResumeTimeout

  • Se realizaron pequeñas mejoras en las comprobaciones de estado de NVIDIA Data Center GPU Manager (DCGM) y la interfaz de administración del NVIDIA sistema (nvidia-smi).

Correcciones de errores

  • El complemento de HyperPod reanudación automática puede utilizar nodos inactivos para reanudar un trabajo.

Pasos de actualización

  • Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

SageMaker HyperPod notas de lanzamiento: 20 de junio de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

Nuevas características

  • Se agregó una nueva capacidad de adjuntar almacenamiento adicional a las instancias SageMaker HyperPod del clúster. Con esta capacidad, puedes configurar el almacenamiento adicional en el nivel de configuración del grupo de instancias durante los procesos de creación o actualización del clúster, ya sea a través de la SageMaker HyperPod consola o del comando CreateClusterand UpdateClusterAPIs. El EBS volumen adicional se adjunta a cada instancia de un SageMaker HyperPod clúster y se monta en él/opt/sagemaker. Para obtener más información sobre cómo implementarlo en su SageMaker HyperPod clúster, consulte la documentación actualizada en las páginas siguientes.

    Tenga en cuenta que debe actualizar el software del HyperPod clúster para utilizar esta capacidad. Después de aplicar los parches al software de HyperPod clústeres, puedes utilizar esta capacidad para SageMaker HyperPod los clústeres existentes creados antes del 20 de junio de 2024 añadiendo nuevos grupos de instancias. Esta capacidad es totalmente efectiva para cualquier SageMaker HyperPod clúster creado después del 20 de junio de 2024.

Pasos de actualización

  • Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

SageMaker HyperPod notas de lanzamiento: 24 de abril de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

Correcciones de errores

  • Se ha corregido un error con el ThreadsPerCore parámetro de ClusterInstanceGroupSpecificationAPI. Con la corrección, CreateClustery toman y aplican UpdateClusterAPIscorrectamente la entrada del usuarioThreadsPerCore. Esta corrección es efectiva en HyperPod los clústeres creados después del 24 de abril de 2024. Si ha tenido problemas con este error y desea aplicar esta corrección a su clúster, debe crear uno nuevo. Asegúrate de hacer copias de seguridad del trabajo y restaurarlo mientras te mueves a un clúster nuevo siguiendo las instrucciones que se indican enUtilice el script de respaldo proporcionado por SageMaker HyperPod.

SageMaker HyperPod notas de lanzamiento: 27 de marzo de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.

  • En esta versión de HyperPod DLAMI, Slurm se ha creado con REST service (slurmestd) con JSONYAML, y JWT soporte.

  • Se actualizó Slurm a la versión 23.11.3

Pasos de actualización

  • Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

Mejoras

  • Se aumentó el tiempo de espera del servicio de reanudación automática a 60 minutos.

  • Se mejoró el proceso de reemplazo de instancias para no reiniciar el controlador Slurm.

  • Se han mejorado los mensajes de error al ejecutar scripts de ciclo de vida, como los errores de descarga y los errores de comprobación del estado de la instancia al iniciar la instancia.

Correcciones de errores

  • Se ha corregido un error en el servicio Chrony que provocaba un problema con la sincronización horaria.

  • Se ha corregido un error con el análisisslurm.conf.

  • Se ha corregido un problema con la NVIDIAgo-dcgmbiblioteca.

SageMaker HyperPod notas de lanzamiento: 14 de marzo de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

HyperPod DLAMIpara el parche de software Slurm

El equipo de HyperPod servicio distribuye los parches de software a través de. SageMaker HyperPod DLAMI Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.

  • Se actualizó Slurm a la versión 23.11.1

  • Se agregó O penPMIx v4.2.6 para habilitar Slurm con. PMIx

  • Basado en la base de aprendizaje AWS profundo GPU AMI (Ubuntu 20.04) publicada el 26 de octubre de 2023

  • Además de la base, incluye una lista completa de los paquetes preinstalados HyperPod DLAMI AMI

    • Slurm: v23.11.1

    • OpenPMIx : v4.2.6

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática

Pasos de actualización

  • Ejecute el siguiente comando para llamar UpdateClusterSoftwareAPIal y actualizar los HyperPod clústeres existentes con la versión más reciente HyperPod DLAMI. Para obtener más instrucciones, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar estoAPI. El proceso de aplicación de parches reemplaza el volumen raíz por el actualizadoAMI, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

Mejoras

SageMaker HyperPod notas de lanzamiento: 15 de febrero de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

Nuevas características

  • Se agregó un nuevo UpdateClusterSoftware API parche SageMaker HyperPod de seguridad. Cuando los parches de seguridad estén disponibles, te recomendamos que actualices SageMaker HyperPod los clústeres existentes en tu cuenta aws sagemaker update-cluster-software --cluster-name your-cluster-name ejecutándolos. Para hacer un seguimiento de los futuros parches de seguridad, sigue consultando esta página de notas SageMaker HyperPod de lanzamiento de Amazon. Para saber cómo UpdateClusterSoftware API funciona, consulteActualice el software de la SageMaker HyperPod plataforma de un clúster.

SageMaker HyperPod notas de lanzamiento: 29 de noviembre de 2023

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Slurm.

Nuevas características

  • Lanzó Amazon SageMaker HyperPod en AWS re:Invent 2023.

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre las últimas HyperPod DLAMI.

  • Basado en la base de aprendizaje AWS profundo GPU AMI (Ubuntu 20.04) publicada el 18 de octubre de 2023

  • Además de la base, incluye una lista completa de los paquetes preinstalados HyperPod DLAMI AMI

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod paquetes de software para admitir funciones como la comprobación del estado del clúster y la reanudación automática