Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Framework e tipi di Regioni AWS istanze supportati
Prima di utilizzare la libreria SageMaker Distributed Data Parallelism (SMDDP), controlla quali sono i framework ML e i tipi di istanze supportati e se ci sono quote sufficienti nel tuo account e. AWS Regione AWS
Framework supportati
Le tabelle seguenti mostrano i framework di deep learning e le relative versioni che supportano SMDDP. SageMaker La libreria SMDDP è disponibile in SageMaker Framework Containers, integrata nei contenitori
Nota
Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria SMDDP, consulta il. SageMaker note di rilascio della libreria di parallelismo dei dati
PyTorch
PyTorch versione | versione della libreria SMDDP | SageMaker Immagini Framework Container preinstallate con SMDDP | Immagini Docker SMP preinstallate con SMDDP | URL del file binario** |
---|---|---|---|---|
v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Attualmente non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** Gli URL dei file binari servono per l'installazione della libreria SMDDP in contenitori personalizzati. Per ulteriori informazioni, consulta Crea il tuo contenitore Docker con la libreria parallela di dati SageMaker distribuiti.
Nota
La libreria SMDDP è disponibile Regioni AWS laddove sono in servizio le immagini SageMaker Framework Containers
Nota
La libreria SMDDP v1.4.0 e versioni successive funge da backend per il parallelismo distribuito (torch.distributed) dei PyTorch dati (torch.parallel). DistributedDataParallelo). In base alla modifica, le seguenti API smdistributed
-
smdistributed.dataparallel.torch.distributed
è obsoleta. Utilizza invece il pacchetto torch.distributed. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
è obsoleta. Usa torch.nn.parallel. DistributedDataAPI parallela invece.
Se devi usare le versioni precedenti della libreria (v1.3.0 o precedente), consulta la documentazione sul parallelismo dei dati SageMaker distribuiti archiviati nella documentazione
PyTorch Lightning
La libreria SMDDP è disponibile per PyTorch Lightning nei seguenti contenitori SageMaker Framework PyTorch e nei contenitori SMP Docker.
PyTorch Lightning v2
PyTorch Versione Lightning | PyTorch versione | versione della libreria SMDDP | SageMaker Immagini Framework Container preinstallate con SMDDP | Immagini Docker SMP preinstallate con SMDDP | URL del file binario** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Al momento non disponibili | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Non disponibile | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
PyTorch Versione Lightning | PyTorch versione | versione della libreria SMDDP | SageMaker Immagini Framework Container preinstallate con SMDDP | URL del file binario** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1,5,10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** Gli URL dei file binari servono per l'installazione della libreria SMDDP in contenitori personalizzati. Per ulteriori informazioni, consulta Crea il tuo contenitore Docker con la libreria parallela di dati SageMaker distribuiti.
Nota
PyTorch Lightning e le sue librerie di utilità come Lightning Bolts non sono preinstallate nei DLC. PyTorch Quando si crea uno strumento di SageMaker PyTorch valutazione e si invia una richiesta di lavoro di formazione nella Fase 2, è necessario provvedere requirements.txt
all'installazione e all'inserimento nel contenitore di formazione. pytorch-lightning
lightning-bolts
SageMaker PyTorch
# requirements.txt pytorch-lightning lightning-bolts
Per ulteriori informazioni su come specificare la directory di origine in cui inserire il requirements.txt
file insieme allo script di formazione e all'invio di un lavoro, consulta la sezione Utilizzo di librerie di terze parti nella documentazione
Trasformatori Hugging Face
I AWS Deep Learning Containers for Hugging Face utilizzano i SageMaker Training Containers per PyTorch e TensorFlow come immagini di base. Per cercare le versioni della libreria Hugging Face Transformers e le versioni abbinate, TensorFlow consulta gli ultimi Hugging Face Containers PyTorch e le versioni precedenti di Hugging Face
TensorFlow (obsoleta)
Importante
La libreria SMDDP ha interrotto il supporto e non è più disponibile nei DLC a partire dalla versione 2.11.0 TensorFlow . TensorFlow La tabella seguente elenca i DLC precedenti per i quali era installata la libreria SMDDP. TensorFlow
TensorFlow versione | versione della libreria SMDDP |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regioni AWS
La libreria SMDDP è disponibile in tutti i paesi in Regioni AWS cui sono in servizio le immagini AWS Deep Learning Containers SageMaker e SMP Docker.
Tipi di istanze supportati
La libreria SMDDP richiede uno dei seguenti tipi di istanza.
Tipo di istanza |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
Suggerimento
Per eseguire correttamente la formazione distribuita sui tipi di istanze compatibili con EFA, è necessario abilitare il traffico tra le istanze configurando il gruppo di sicurezza del VPC per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. Per informazioni su come configurare le regole del gruppo di sicurezza, consulta la Fase 1: Preparare un gruppo di sicurezza abilitato per EFA nella Guida per l'utente di Amazon EC2.
Importante
* La libreria SMDDP ha interrotto il supporto per l'ottimizzazione delle operazioni di comunicazione collettiva sulle istanze P3. Sebbene sia ancora possibile utilizzare il AllReduce
collettivo ottimizzato SMDDP sulle ml.p3dn.24xlarge
istanze, non sarà disponibile alcun ulteriore supporto allo sviluppo per migliorare le prestazioni su questo tipo di istanza. Tieni presente che il AllGather
collettivo ottimizzato SMDDP è disponibile solo per le istanze P4.
Per le specifiche dei tipi di istanza, consulta la sezione Elaborazione accelerata nella pagina tipi di istanza Amazon EC2
Se hai ricevuto un messaggio di errore simile al seguente, segui le istruzioni in Richiedi un aumento della quota di servizio per SageMaker le risorse.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.