Ejecución de tareas de formación en un clúster heterogéneo - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución de tareas de formación en un clúster heterogéneo

Con la función de clústeres heterogéneos de SageMaker Training, puede realizar un trabajo de formación con varios tipos de instancias de aprendizaje automático a fin de ampliar y utilizar mejor los recursos para diferentes tareas y propósitos de formación en aprendizaje automático. Por ejemplo, si su trabajo de formación en un clúster con GPU instancias presenta problemas de baja GPU utilización y CPU atascos debido a tareas CPU intensivas, el uso de un clúster heterogéneo puede ayudar a reducir la carga de tareas CPU intensivas al agregar grupos de CPU instancias más rentables, resolver esos problemas de cuello de botella y lograr una mejor GPU utilización.

nota

Esta función está disponible en SageMaker Python SDK v2.98.0 y versiones posteriores.

nota

Esta función está disponible a través de las clases de estimador SageMaker PyTorchy TensorFlowframework. Los marcos compatibles son la PyTorch versión 1.10 o posterior y TensorFlow la versión 2.6 o posterior.

Consulte también el blog Mejore la relación precio-rendimiento de su entrenamiento de modelos mediante clústeres SageMaker heterogéneos de Amazon.