Ejecución de tareas de formación en un clúster heterogéneo

Con la función de clústeres heterogéneos de SageMaker Training, puede realizar un trabajo de formación con varios tipos de instancias de aprendizaje automático a fin de ampliar y utilizar mejor los recursos para diferentes tareas y propósitos de formación en aprendizaje automático. Por ejemplo, si su trabajo de formación en un clúster con GPU instancias presenta problemas de baja GPU utilización y CPU atascos debido a tareas CPU intensivas, el uso de un clúster heterogéneo puede ayudar a reducir la carga de tareas CPU intensivas al agregar grupos de CPU instancias más rentables, resolver esos problemas de cuello de botella y lograr una mejor GPU utilización.

nota

Esta función está disponible en SageMaker Python SDK v2.98.0 y versiones posteriores.

nota

Esta función está disponible a través de las clases de estimador SageMaker PyTorchy TensorFlowframework. Los marcos compatibles son la PyTorch versión 1.10 o posterior y TensorFlow la versión 2.6 o posterior.

Consulte también el blog Mejore la relación precio-rendimiento de su entrenamiento de modelos mediante clústeres SageMaker heterogéneos de Amazon.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

SageMaker las variables de entorno y las rutas predeterminadas para el entrenamiento: ubicaciones de almacenamiento

Configurar un trabajo de formación con un clúster heterogéneo en Amazon SageMaker