Marcos compatibles y Regiones de AWS - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Marcos compatibles y Regiones de AWS

Antes de usar la biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta y. AWS Región de AWS

nota

Para consultar las últimas actualizaciones y notas de la versión de la biblioteca, consulte. Notas de publicación de la biblioteca de paralelismo de SageMaker modelos

Marcos admitidos

SMP v2 es compatible con los siguientes marcos de aprendizaje profundo y está disponible a través de contenedores Docker SMP y un canal SMP Conda. Cuando utilizas las clases estimadoras del framework en el SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, recoge SageMaker automáticamente los contenedores Docker de SMP. Para usar SMP v2, te recomendamos que mantengas siempre actualizado el SDK de SageMaker Python en tu entorno de desarrollo.

PyTorch versiones compatibles con la biblioteca de paralelismo de SageMaker modelos

PyTorch versión SageMaker versión de la biblioteca de paralelismo de modelos URI de imagen SMP Docker
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 No disponible. Utilice la imagen de SMP v2.3.0, que es compatible con versiones anteriores.
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Canal SMP Conda

El siguiente bucket de S3 es un canal Conda público hospedado por el equipo de servicio SMP. Si desea instalar la biblioteca SMP v2 en un entorno como los SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte los canales en la documentación de Conda.

nota

Para encontrar las versiones anteriores de la biblioteca SMP v1.x y los DLC preempaquetados, consulte la documentación de SMP v1. Marcos admitidos

Usa SMP v2 con bibliotecas de código abierto

La biblioteca SMP v2 funciona con otras bibliotecas PyTorch basadas en código abierto, como PyTorch Lightning, Hugging Face Transformers y Hugging Face Accelerate, ya que SMP v2 es compatible con las API de FSDP. PyTorch Si tiene más preguntas sobre el uso de la biblioteca SMP con otras bibliotecas de terceros, póngase en contacto con el equipo de servicio de SMP en. sm-model-parallel-feedback@amazon.com

Regiones de AWS

SMP v2 está disponible en las siguientes ubicaciones. Regiones de AWS Si quieres usar los URI de imagen SMP de Docker o el canal SMP Conda, consulta la siguiente lista y elige la que Región de AWS coincida con la tuya y actualiza el URI de la imagen o la URL del canal en consecuencia.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipos de instancias admitidas

SMP v2 requiere uno de los siguientes tipos de instancias de ML.

Tipo de instancia
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
sugerencia

A partir de la versión 2.2.0 de SMP, compatible con la versión 2.2.0 y PyTorch versiones posteriores, está disponible. Entrenamiento de precisión mixto con instancias P5 que FP8 utilizan Transformer Engine

Para ver las especificaciones de los tipos de instancias de aprendizaje SageMaker automático en general, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2. Para obtener información sobre los precios de las instancias, consulta Amazon SageMaker Pricing.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones que se indican en Solicitar un aumento de cuota en la Guía del usuario de AWS Service Quotas.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.