Framework supportati e Regioni AWS - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Framework supportati e Regioni AWS

Prima di utilizzare la SageMaker model parallelism library v2 (SMP v2), controlla i framework e i tipi di istanza supportati e determina se ci sono quote sufficienti nel tuo account e. AWS Regione AWS

Nota

Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria, consulta. Note di rilascio per la libreria di parallelismo dei SageMaker modelli

Framework supportati

SMP v2 supporta i seguenti framework di deep learning ed è disponibile tramite contenitori SMP Docker e un canale SMP Conda. Quando si utilizzano le classi di stima del framework in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per usare SMP v2, ti consigliamo di mantenere sempre aggiornato l'SDK SageMaker Python nel tuo ambiente di sviluppo.

PyTorch versioni supportate dalla libreria Model SageMaker Parallelism

PyTorch versione SageMaker versione della libreria di parallelismo dei modelli URI dell'immagine Docker SMP
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 Non disponibile. Usa l'immagine di SMP v2.3.0, che è retrocompatibile.
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Canale SMP Conda

Il seguente bucket S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente come i SageMaker HyperPod cluster, usa questo canale Conda per installare correttamente la libreria SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, vedete Canali nella documentazione di Conda.

Nota

Per trovare le versioni precedenti della libreria SMP v1.x e i DLC preconfezionati, consultate la documentazione di SMP v1. Framework supportati

Usa SMP v2 con librerie open source

La libreria SMP v2 funziona con altre librerie open source PyTorch basate come PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, poiché SMP v2 è compatibile con le API FSDP. PyTorch Se hai ulteriori domande sull'utilizzo della libreria SMP con altre librerie di terze parti, contatta il team di assistenza SMP all'indirizzo. sm-model-parallel-feedback@amazon.com

Regioni AWS

SMP v2 è disponibile di seguito. Regioni AWS Se desideri utilizzare gli URI dell'immagine SMP Docker o il canale SMP Conda, controlla il seguente elenco e scegli quello Regione AWS corrispondente al tuo e aggiorna l'URI dell'immagine o l'URL del canale di conseguenza.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipi di istanze supportati

SMP v2 richiede uno dei seguenti tipi di istanza ML.

Tipo di istanza
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
Suggerimento

A partire da SMP v2.2.0, è disponibile il supporto per la versione PyTorch 2.2.0 e successive. Addestramento di precisione misto con nessuna istanza P5 utilizzando Transformer Engine FP8

Per le specifiche dei tipi di istanze di SageMaker machine learning in generale, consulta la sezione Accelerated Computing nella pagina Tipi di istanze Amazon EC2. Per informazioni sui prezzi delle istanze, consulta la pagina SageMakerPrezzi di Amazon.

Se hai riscontrato un messaggio di errore simile al seguente, segui le istruzioni riportate nella sezione Richiedere un aumento della quota nella AWS Service Quotas User Guide.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.