Realice capacitaciones distribuidas en un clúster heterogéneo en Amazon AI SageMaker

Modo de enfoque

Realice capacitaciones distribuidas en un clúster heterogéneo en Amazon AI SageMaker - Amazon SageMaker AI

Con el distribution argumento de la clase de estimadores de SageMaker IA, puede asignar un grupo de instancias específico para ejecutar una formación distribuida. Por ejemplo, supongamos que tiene los dos grupos de instancias siguientes y quiere ejecutar un entrenamiento con varias GPU en uno de ellos.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

Puede establecer la configuración de entrenamiento distribuido para uno de los grupos de instancias. Por ejemplo, en los siguientes ejemplos de código se muestra cómo asignar training_group_2 con dos instancias de ml.p3dn.24xlarge a la configuración de entrenamiento distribuido.

nota

Actualmente, solo se puede especificar un grupo de instancias de un clúster heterogéneo en la configuración de distribución.

Con MPI

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "mpi": {
            "enabled": True, "processes_per_host": 8
        },
        "instance_groups": [instance_group_2]
    }
)

Con la biblioteca paralela de datos de SageMaker IA

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "smdistributed": {
            "dataparallel": {
                "enabled": True
            }
        }, 
        "instance_groups": [instance_group_2]
    }
)

nota

Cuando utilices la biblioteca paralela de datos de SageMaker IA, asegúrate de que el grupo de instancias esté formado por los tipos de instancias compatibles con la biblioteca.

Para obtener más información sobre la SageMaker biblioteca paralela de datos de SageMaker IA, consulte Formación paralela de datos de IA.

Con la biblioteca paralela de modelos SageMaker AI

anchor anchor


from sagemaker.pytorch import PyTorch

estimator = PyTorch(
    ...
    instance_groups=[instance_group_1, instance_group_2],
    distribution={
        "smdistributed": {
            "modelparallel": {
                "enabled":True,
                "parameters": {
                    ...   # SageMaker AI model parallel parameters
                } 
            }
        }, 
        "instance_groups": [instance_group_2]
    }
)

Para obtener más información sobre la biblioteca paralela de modelos de SageMaker IA, consulte Entrenamiento paralelo de modelos de SageMaker IA.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configurar un trabajo de formación con un clúster heterogéneo en Amazon AI SageMaker

Modificación del script de entrenamiento para asignar grupos de instancias

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Realice capacitaciones distribuidas en un clúster heterogéneo en Amazon AI SageMaker

nota

nota

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?