Framework e tipi di Regioni AWS istanze supportati - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Framework e tipi di Regioni AWS istanze supportati

Prima di utilizzare la libreria SageMaker Distributed Data Parallelism (SMDDP), controlla quali sono i framework ML e i tipi di istanze supportati e se ci sono quote sufficienti nel tuo account e. AWS Regione AWS

Framework supportati

Le tabelle seguenti mostrano i framework di deep learning e le relative versioni che supportano SMDDP. SageMaker La libreria SMDDP è disponibile in SageMaker Framework Containers, integrata nei contenitori Docker distribuiti dalla libreria SageMaker Model Parallelism (SMP) v2 o scaricabile come file binario.

Nota

Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria SMDDP, consulta il. SageMaker note di rilascio della libreria di parallelismo dei dati

PyTorch

PyTorch versione versione della libreria SMDDP SageMaker Immagini Framework Container preinstallate con SMDDP Immagini Docker SMP preinstallate con SMDDP URL del file binario**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Attualmente non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Gli URL dei file binari servono per l'installazione della libreria SMDDP in contenitori personalizzati. Per ulteriori informazioni, consulta Crea il tuo contenitore Docker con la libreria parallela di dati SageMaker distribuiti.

Nota

La libreria SMDDP è disponibile Regioni AWS laddove sono in servizio le immagini SageMaker Framework Containers e SMP Docker.

Nota

La libreria SMDDP v1.4.0 e versioni successive funge da backend per il parallelismo distribuito (torch.distributed) dei PyTorch dati (torch.parallel). DistributedDataParallelo). In base alla modifica, le seguenti API smdistributed per il pacchetto PyTorch distribuito sono diventate obsolete.

Se devi usare le versioni precedenti della libreria (v1.3.0 o precedente), consulta la documentazione sul parallelismo dei dati SageMaker distribuiti archiviati nella documentazione di Python SDK. SageMaker

PyTorch Lightning

La libreria SMDDP è disponibile per PyTorch Lightning nei seguenti contenitori SageMaker Framework PyTorch e nei contenitori SMP Docker.

PyTorch Lightning v2

PyTorch Versione Lightning PyTorch versione versione della libreria SMDDP SageMaker Immagini Framework Container preinstallate con SMDDP Immagini Docker SMP preinstallate con SMDDP URL del file binario**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Al momento non disponibili https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Non disponibile https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Versione Lightning PyTorch versione versione della libreria SMDDP SageMaker Immagini Framework Container preinstallate con SMDDP URL del file binario**

1.7.2

1.7.0

1.6.4

1.6.3

1,5,10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Gli URL dei file binari servono per l'installazione della libreria SMDDP in contenitori personalizzati. Per ulteriori informazioni, consulta Crea il tuo contenitore Docker con la libreria parallela di dati SageMaker distribuiti.

Nota

PyTorch Lightning e le sue librerie di utilità come Lightning Bolts non sono preinstallate nei DLC. PyTorch Quando si crea uno strumento di SageMaker PyTorch valutazione e si invia una richiesta di lavoro di formazione nella Fase 2, è necessario provvedere requirements.txt all'installazione e all'inserimento nel contenitore di formazione. pytorch-lightning lightning-bolts SageMaker PyTorch

# requirements.txt pytorch-lightning lightning-bolts

Per ulteriori informazioni su come specificare la directory di origine in cui inserire il requirements.txt file insieme allo script di formazione e all'invio di un lavoro, consulta la sezione Utilizzo di librerie di terze parti nella documentazione di Amazon SageMakerPython SDK.

Trasformatori Hugging Face

I AWS Deep Learning Containers for Hugging Face utilizzano i SageMaker Training Containers per PyTorch e TensorFlow come immagini di base. Per cercare le versioni della libreria Hugging Face Transformers e le versioni abbinate, TensorFlow consulta gli ultimi Hugging Face Containers PyTorch e le versioni precedenti di Hugging Face Container.

TensorFlow (obsoleta)

Importante

La libreria SMDDP ha interrotto il supporto e non è più disponibile nei DLC a partire dalla versione 2.11.0 TensorFlow . TensorFlow La tabella seguente elenca i DLC precedenti per i quali era installata la libreria SMDDP. TensorFlow

TensorFlow versione versione della libreria SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regioni AWS

La libreria SMDDP è disponibile in tutti i paesi in Regioni AWS cui sono in servizio le immagini AWS Deep Learning Containers SageMaker e SMP Docker.

Tipi di istanze supportati

La libreria SMDDP richiede uno dei seguenti tipi di istanza.

Tipo di istanza
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
Suggerimento

Per eseguire correttamente la formazione distribuita sui tipi di istanze compatibili con EFA, è necessario abilitare il traffico tra le istanze configurando il gruppo di sicurezza del VPC per consentire tutto il traffico in entrata e in uscita da e verso il gruppo di sicurezza stesso. Per informazioni su come configurare le regole del gruppo di sicurezza, consulta la Fase 1: Preparare un gruppo di sicurezza abilitato per EFA nella Guida per l'utente di Amazon EC2.

Importante

* La libreria SMDDP ha interrotto il supporto per l'ottimizzazione delle operazioni di comunicazione collettiva sulle istanze P3. Sebbene sia ancora possibile utilizzare il AllReduce collettivo ottimizzato SMDDP sulle ml.p3dn.24xlarge istanze, non sarà disponibile alcun ulteriore supporto allo sviluppo per migliorare le prestazioni su questo tipo di istanza. Tieni presente che il AllGather collettivo ottimizzato SMDDP è disponibile solo per le istanze P4.

Per le specifiche dei tipi di istanza, consulta la sezione Elaborazione accelerata nella pagina tipi di istanza Amazon EC2. Per informazioni sui prezzi delle istanze, consulta la pagina SageMaker Prezzi di Amazon.

Se hai ricevuto un messaggio di errore simile al seguente, segui le istruzioni in Richiedi un aumento della quota di servizio per SageMaker le risorse.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.