Utilisation du déchargement de l'activation

Déchargement de l'activation

Lorsque les points de contrôle d'activation et le parallélisme de pipeline sont activés et que le nombre de microlots est supérieur à un, le déchargement de l'activation est une fonction supplémentaire qui peut réduire davantage l'utilisation de la mémoire. Le déchargement des activations déplace de manière asynchrone les activations ponctuelles correspondant à leurs microlots qui ne sont pas actuellement en cours d'exécution dans le. CPU Juste avant d'avoir GPU besoin des activations pour le passage en arrière du microbatch, cette fonctionnalité extrait les activations déchargées depuis le. CPU

Note

Cette fonctionnalité est disponible PyTorch dans la bibliothèque de parallélisme des SageMaker modèles v1.6.0 et versions ultérieures.

Utilisation du déchargement de l'activation

Utilisez le déchargement de l'activation pour réduire l'utilisation de la mémoire lorsque le nombre de microlots est supérieur à 1 et que les points de contrôle d'activation sont activés (consultez Points de contrôle d'activation). Si les points de contrôle d'activation ne sont pas utilisés, le déchargement de l'activation n'a aucun effet. Si cette fonctionnalité est utilisée avec un seul microlot, elle ne permet pas d'économiser de la mémoire.

Pour utiliser le déchargement de l'activation, définissez "offload_activations": True dans la configuration modelparallel.

Le déchargement des activations déplace les activations ponctuelles des nn.Sequential modules vers un mode asynchrone. CPU Le transfert de données via le PCIe lien chevauche le GPU calcul. Le déchargement se produit immédiatement, dès que la transmission vers l'avant d'une couche avec points de contrôle donnée est calculée. Les activations sont rechargées GPU peu de temps avant qu'elles ne soient nécessaires pour le retour en arrière d'un microlot particulier. Le GPU transfert CPU - chevauche également le calcul.

Pour régler l'heure à laquelle les activations sont rechargées dans leGPU, vous pouvez utiliser le paramètre de configuration "activation_loading_horizon" (la valeur par défaut est définie sur 4, doit être int supérieure à 0). Un horizon de chargement des activations plus large entraînerait le rechargement des activations au niveau GPU antérieur. Si l'horizon est trop grand, l'efficacité du déchargement de l'activation pour réduire la mémoire utilisée pourrait être réduite. Si l'horizon est trop petit, il se peut que les activations ne soient pas rechargées à temps, ce qui réduirait la quantité de chevauchement et nuirait aux performances.

Astuce

Le déchargement de l'activation peut être utile pour les grands modèles comportant plus de cent milliards de paramètres.

Configuration d'un SageMaker PyTorch estimateur


mpi_options = {
    "enabled" : True,
    "processes_per_host" : 8,               # 8 processes
    "custom_mpi_options" : "--mca btl_vader_single_copy_mechanism none "
}

smp_options = {
    "enabled":True,
    "parameters": {
        "microbatches": 4,
        "pipeline_parallel_degree": 2,    # alias for "partitions"
        "placement_strategy": "cluster",
        "tensor_parallel_degree": 2,      # tp over 2 devices
        "ddp": True,
        "offload_activations": True,
        "activation_loading_horizon": 4   # optional. default is 4.
    }
}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Points de contrôle d'activation

FP16Entraînement avec le parallélisme des modèles