Compatibilité avec la SMDDP bibliothèque optimisée pour l' AWS infrastructure - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Compatibilité avec la SMDDP bibliothèque optimisée pour l' AWS infrastructure

Vous pouvez utiliser la bibliothèque de parallélisme de SageMaker modèles v2 (SMPv2) conjointement avec la bibliothèque de parallélisme de données SageMaker distribué (SMDDP) qui propose une opération de communication AllGather collective optimisée pour l'infrastructure. AWS Dans le cadre de la formation distribuée, les opérations de communication collective sont conçues pour synchroniser plusieurs GPU travailleurs et échanger des informations entre eux. AllGatherest l'une des principales opérations de communication collective généralement utilisées dans le parallélisme de données fragmentées. Pour en savoir plus sur l'SMDDPAllGatheropération, voir Opération collective SMDDP AllGather L'optimisation de telles opérations de communication collective contribuerait directement à accélérer l' end-to-endentraînement sans effets secondaires sur la convergence.

Note

La SMDDP bibliothèque prend en charge les instances P4 et P4de (voir également Frameworks et types Régions AWS d'instances pris en charge par la SMDDP bibliothèque).

La SMDDP bibliothèque s'intègre nativement PyTorch via la couche de groupes de processus. Pour utiliser la SMDDP bibliothèque, il suffit d'ajouter deux lignes de code à votre script d'entraînement. Il prend en charge tous les frameworks de formation tels que SageMaker Model Parallelism Library PyTorch FSDP, et. DeepSpeed

Pour activer SMDDP et utiliser son AllGather fonctionnement, vous devez ajouter deux lignes de code à votre script d'entraînement dans le cadre deÉtape 1 : Adaptez votre script PyTorch FSDP d'entraînement. Notez que vous devez d'abord initialiser PyTorch Distributed avec le SMDDP backend, puis exécuter l'SMPinitialisation.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker Les conteneurs Framework pour PyTorch (voir aussi Frameworks et Régions AWS pris en charge par SMP v2 et Frameworks et types Régions AWS d'instances pris en charge par la SMDDP bibliothèque) sont préemballés avec le SMP binaire et le SMDDP binaire. Pour en savoir plus sur la SMDDP bibliothèque, voirOrganisez une formation distribuée avec la bibliothèque de parallélisme de données SageMaker distribué.