Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Marcos y Regiones de AWS compatibles
Antes de usar la biblioteca de paralelismo de SageMaker modelos v2 (SMPv2), compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta y. AWS Región de AWS
nota
Para ver las últimas actualizaciones y notas de la versión de la biblioteca, consulte Notas de publicación de la biblioteca de paralelismo de SageMaker modelos.
Marcos admitidos
SMPLa versión 2 es compatible con los siguientes marcos de aprendizaje profundo y está disponible a través de contenedores SMP Docker y un canal de Conda. SMP Cuando utilizas las clases estimadoras del framework en SageMaker Python SDK y especificas la configuración de distribución para usar la SMP v2, la SageMaker IA recoge automáticamente los contenedores de SMP Docker. Para usar SMP la versión 2, le recomendamos que mantenga siempre SDK actualizado SageMaker Python en su entorno de desarrollo.
PyTorch versiones compatibles con la biblioteca de paralelismo de SageMaker modelos
PyTorch versión | SageMaker versión de la biblioteca de paralelismo de modelos | SMPImagen de Docker URI | SMPImagen de Enroot URI |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
N/A | ||
smdistributed-modelparallel==v2.6.0 |
N/A | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
N/A |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
N/A |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
N/A |
SMPCanal Conda
El siguiente bucket de Amazon S3 es un canal público de Conda hospedado por el equipo SMP de servicio. Si desea instalar la biblioteca SMP v2 en un entorno como SageMaker HyperPod los clústeres, utilice este canal de Conda para instalar la SMP biblioteca correctamente.
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Para obtener más información sobre los canales de Conda en general, consulte Canales
nota
Para encontrar las versiones anteriores de la SMP biblioteca v1.x y las preempaquetadasDLCs, consulte Marcos admitidos la documentación de la versión 1. SMP
Utilice la SMP versión 2 con bibliotecas de código abierto
La biblioteca SMP v2 funciona con otras bibliotecas de código abierto PyTorch basadas en ellas, como PyTorch Lightning, Hugging Face Transformers y Hugging Face AccelerateSMP, ya que la v2 es compatible con. PyTorch FSDP APIs Si tiene más preguntas sobre el uso de la SMP biblioteca con bibliotecas de terceros, póngase en contacto con el equipo de SMP servicio en. sm-model-parallel-feedback@amazon.com
Regiones de AWS
SMPLa versión 2 está disponible en las siguientes direcciones Regiones de AWS. Si quieres usar la imagen de SMP Docker URIs o el canal SMP Conda, consulta la siguiente lista, elige la que Región de AWS coincida con la tuya y actualiza la imagen URI o el canal URL en consecuencia.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Tipos de instancias admitidas
SMPLa versión 2 requiere uno de los siguientes tipos de instancias de aprendizaje automático.
Tipo de instancia |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
sugerencia
Está disponible a partir de la SMP versión 2.2.0 y compatible con la PyTorch versión 2.2.0 y versiones posteriores. Entrenamiento de precisión mixto con instancias P5 que FP8 utilizan Transformer Engine
Para ver las especificaciones de los tipos de instancias de aprendizaje SageMaker automático en general, consulte la sección Computación acelerada en la página de tipos de EC2 instancias de Amazon
Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitud de aumento de cuota en la Guía del usuario de AWS Service Quotas.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.