Notes de SageMaker HyperPod publication d'Amazon - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Notes de SageMaker HyperPod publication d'Amazon

Les notes de mise à jour suivantes présentent les dernières mises à jour d'Amazon SageMaker HyperPod. Elles décrivent les nouvelles fonctionnalités, les correctifs et les améliorations apportés depuis la version précédente.

SageMaker HyperPod notes de publication : 10 septembre 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Amazon EKS.

Nouvelles fonctionnalités

SageMaker HyperPod DLAMIpour le EKS support Amazon

Vous trouverez ci-dessous une liste résumée des packages préinstallés ou préconfigurés dans le support pour SageMaker HyperPod DLAMIs AmazonEKS. Chacun DLAMIs est basé sur Amazon Linux 2 (AL2) et prend en charge une version spécifique de Kubernetes.

AMIsIl s'agit notamment des éléments suivants :

Deep Learning EKS AMI 1.28
  • EKSComposants Amazon

    • Version de Kubernetes : 1.28.11

    • Version contenue : 1.7.20

    • Exécuter la version : 1.1.11

    • AWS IAMAuthentificateur : 0.6.21

  • Amazon SSM Agent : 3.3.380

  • Noyau Linux : 5.10.223

  • OSSNVIDIApilote : 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstallateur : 1.32.0

  • GDRCopy: 2,4

  • NVIDIAboîte à outils pour conteneurs : 1.16.1

  • AWS OFINCCL: 1,9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21.41,0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2,17,17,0

  • aws-neuronx-collectives: 2,21.46,0

Deep Learning EKS AMI 1.29
  • EKSComposants Amazon

    • Version de Kubernetes : 1.29.6

    • Version contenue : 1.7.20

    • Exécuter la version : 1.1.11

    • AWS IAMAuthentificateur : 0.6.21

  • Amazon SSM Agent : 3.3.380

  • Noyau Linux : 5.10.223

  • OSSPilote Nvidia : 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstallateur : 1.32.0

  • GDRCopy: 2,4

  • Boîte à outils pour conteneurs Nvidia : 1.16.1

  • AWS OFINCCL: 1,9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21.41,0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2,17,17,0

  • aws-neuronx-collectives: 2,21.46,0

Deep Learning EKS AMI 1.30
  • EKSComposants Amazon

    • Version de Kubernetes : 1.30.2

    • Version contenue : 1.7.20

    • Exécuter la version : 1.1.11

    • AWS IAMAuthentificateur : 0.6.21

  • Amazon SSM Agent : 3.3.380

  • Noyau Linux : 5.10.223

  • OSSPilote Nvidia : 535.183.01

  • NVIDIACUDA: 12,2

  • EFAInstallateur : 1.32.0

  • GDRCopy: 2,4

  • Boîte à outils pour conteneurs Nvidia : 1.16.1

  • AWS OFINCCL: 1,9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21.41,0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2,17,17,0

  • aws-neuronx-collectives: 2,21.46,0

SageMaker HyperPod DLAMIpour le support Slurm

L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur les dernières nouveautés HyperPod DLAMI de Slurm.

Note

Pour obtenir des instructions sur la mise à jour HyperPod des clusters existants avec la dernière version HyperPod DLAMI, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

  • Installation du NVIDIA pilote v550.90.07

  • Installation du EFA pilote v2.10

  • Installation de la dernière version de AWS Neuron SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod notes de publication : 20 août 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Nouvelles fonctionnalités

  • Amélioration de la fonctionnalité de SageMaker HyperPod reprise automatique, en étendant la capacité de résilience des nœuds Slurm attachés à Generic (). RESources GRES

    Lorsque des ressources génériques (GRES) sont attachées à un nœud Slurm, Slurm n'autorise généralement pas les modifications de l'allocation des nœuds, telles que le remplacement de nœuds, et n'autorise donc pas la reprise d'une tâche ayant échoué. Sauf interdiction explicite, la fonctionnalité de HyperPod reprise automatique met automatiquement en file d'attente toute tâche défectueuse associée aux GRES nœuds activés. Ce processus implique d'arrêter le travail, de le replacer dans la file d'attente des travaux, puis de le redémarrer depuis le début.

Autres modifications

  • Préemballé slurmrestddans le. SageMaker HyperPod AMI

  • Modification des valeurs par défaut pendant ResumeTimeout et UnkillableStepTimeout de 60 secondes à 300 secondes slurm.conf afin d'améliorer la réactivité du système et la gestion des tâches.

  • Améliorations mineures apportées aux contrôles de santé de NVIDIA Data Center GPU Manager (DCGM) et de l'interface de gestion du NVIDIA système (nvidia-smi).

Corrections de bugs

  • Le plug-in de HyperPod reprise automatique peut utiliser des nœuds inactifs pour reprendre une tâche.

étapes de mise à niveau

  • Exécutez la commande suivante pour appeler le UpdateClusterSoftwareAPIafin de mettre à jour vos HyperPod clusters existants avec la dernière version HyperPod DLAMI. Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant de l'exécuterAPI. Le processus d'application des correctifs remplace le volume racine par le volume mis à jourAMI, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

SageMaker HyperPod notes de publication : 20 juin 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Nouvelles fonctionnalités

  • Ajout d'une nouvelle fonctionnalité permettant d'associer du stockage supplémentaire aux instances de SageMaker HyperPod cluster. Grâce à cette fonctionnalité, vous pouvez configurer un stockage supplémentaire au niveau de la configuration du groupe d'instances lors des processus de création ou de mise à jour du cluster, via la SageMaker HyperPod console ou le CreateClusteret UpdateClusterAPIs. Le EBS volume supplémentaire est attaché à chaque instance d'un SageMaker HyperPod cluster et monté dessus/opt/sagemaker. Pour en savoir plus sur son implémentation dans votre SageMaker HyperPod cluster, consultez la documentation mise à jour sur les pages suivantes.

    Notez que vous devez mettre à jour le logiciel du HyperPod cluster pour utiliser cette fonctionnalité. Après avoir appliqué le correctif au logiciel du HyperPod cluster, vous pouvez utiliser cette fonctionnalité pour les SageMaker HyperPod clusters existants créés avant le 20 juin 2024 en ajoutant de nouveaux groupes d'instances. Cette fonctionnalité est pleinement efficace pour tous les SageMaker HyperPod clusters créés après le 20 juin 2024.

étapes de mise à niveau

  • Exécutez la commande suivante pour appeler le UpdateClusterSoftwareAPIafin de mettre à jour vos HyperPod clusters existants avec la dernière version HyperPod DLAMI. Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant de l'exécuterAPI. Le processus d'application des correctifs remplace le volume racine par le volume mis à jourAMI, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

SageMaker HyperPod notes de publication : 24 avril 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Corrections de bugs

  • Correction d'un bug avec le ThreadsPerCore paramètre dans le ClusterInstanceGroupSpecificationAPI. Avec le correctif, et prennent CreateClusteret appliquent UpdateClusterAPIscorrectement les entrées de l'utilisateurThreadsPerCore. Ce correctif est effectif sur les HyperPod clusters créés après le 24 avril 2024. Si vous avez rencontré des problèmes avec ce bogue et que vous souhaitez appliquer ce correctif à votre cluster, vous devez créer un nouveau cluster. Assurez-vous de sauvegarder et de restaurer votre travail lorsque vous passez à un nouveau cluster en suivant les instructions deUtilisez le script de sauvegarde fourni par SageMaker HyperPod.

SageMaker HyperPod notes de publication : 27 mars 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

HyperPod correctif logiciel

L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur les dernières nouveautés HyperPod DLAMI.

  • Dans cette version du HyperPod DLAMI, Slurm est construit avec REST service (slurmestd) avec JSONYAML, et JWT support.

  • Mise à niveau de Slurm vers la version 23.11.3

étapes de mise à niveau

  • Exécutez la commande suivante pour appeler le UpdateClusterSoftwareAPIafin de mettre à jour vos HyperPod clusters existants avec la dernière version HyperPod DLAMI. Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant de l'exécuterAPI. Le processus d'application des correctifs remplace le volume racine par le volume mis à jourAMI, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

Améliorations

  • Le délai d'expiration du service de reprise automatique a été augmenté à 60 minutes.

  • Processus de remplacement d'instance amélioré pour ne pas redémarrer le contrôleur Slurm.

  • Messages d'erreur améliorés liés à l'exécution de scripts de cycle de vie, tels que les erreurs de téléchargement et les erreurs de vérification de l'état de l'instance au démarrage de l'instance.

Corrections de bugs

  • Correction d'un bug lié au service Chrony qui provoquait un problème de synchronisation horaire.

  • Correction d'un bug lié à l'analyse syntaxique. slurm.conf

  • Correction d'un problème lié à NVIDIAgo-dcgmla bibliothèque.

SageMaker HyperPod notes de publication : 14 mars 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

HyperPod DLAMIpour le correctif logiciel Slurm

L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur les dernières nouveautés HyperPod DLAMI.

  • Mise à niveau de Slurm vers la version 23.11.1

  • Ajout de O penPMIx v4.2.6 pour activer Slurm avec. PMIx

  • Construit sur la base d'apprentissage AWS profond GPU AMI (Ubuntu 20.04) publiée le 26/10/2023

  • Une liste complète des packages préinstallés s'y trouve HyperPod DLAMI en plus de la base AMI

    • Slurm : v23.11.1

    • Système d'exploitation penPMIx  : v4.2.6

    • Munge : v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique

étapes de mise à niveau

  • Exécutez la commande suivante pour appeler le UpdateClusterSoftwareAPIafin de mettre à jour vos HyperPod clusters existants avec la dernière version HyperPod DLAMI. Pour obtenir des instructions supplémentaires, consultezMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

    Important

    Sauvegardez votre travail avant de l'exécuterAPI. Le processus d'application des correctifs remplace le volume racine par le volume mis à jourAMI, ce qui signifie que les données précédemment stockées dans le volume racine de l'instance seront perdues. Assurez-vous de sauvegarder vos données depuis le volume racine de l'instance vers Amazon S3 ou Amazon FSx for Lustre. Pour de plus amples informations, veuillez consulter Utilisez le script de sauvegarde fourni par SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Note

    Notez que vous devez exécuter la AWS CLI commande pour mettre à jour votre HyperPod cluster. La mise à jour du HyperPod logiciel via l'interface utilisateur de SageMaker HyperPod la console n'est actuellement pas disponible.

Améliorations

SageMaker HyperPod notes de publication : 15 février 2024

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Nouvelles fonctionnalités

  • Ajout d'un nouveau UpdateClusterSoftware API correctif de SageMaker HyperPod sécurité. Lorsque des correctifs de sécurité seront disponibles, nous vous recommandons de mettre à jour les SageMaker HyperPod clusters existants de votre compte en exécutantaws sagemaker update-cluster-software --cluster-name your-cluster-name. Pour effectuer le suivi des futurs correctifs de sécurité, suivez cette page des notes SageMaker HyperPod de publication d'Amazon. Pour savoir comment UpdateClusterSoftware API cela fonctionne, voirMettre à jour le logiciel de SageMaker HyperPod plate-forme d'un cluster.

SageMaker HyperPod notes de publication : 29 novembre 2023

SageMaker HyperPod publie ce qui suit pourOrchestration de SageMaker HyperPod clusters avec Slurm.

Nouvelles fonctionnalités

  • J'ai lancé Amazon SageMaker HyperPod à AWS re:Invent 2023.

HyperPod correctif logiciel

L'équipe HyperPod de service distribue des correctifs logiciels viaSageMaker HyperPod DLAMI. Consultez les informations suivantes sur les dernières nouveautés HyperPod DLAMI.

  • Construit sur la base d'apprentissage AWS profond GPU AMI (Ubuntu 20.04) publiée le 18/10/2023

  • Une liste complète des packages préinstallés s'y trouve HyperPod DLAMI en plus de la base AMI

    • Slurm : v23.02.3

    • Munge : v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod progiciels prenant en charge des fonctionnalités telles que le contrôle de l'état du cluster et la reprise automatique