Lanzar una AWS Deep Learning AMIs instancia con EFA - AWS Deep Learning AMIs

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Lanzar una AWS Deep Learning AMIs instancia con EFA

La última versión de Base DLAMI está lista para usarse EFA e incluye los controladores necesarios, los módulos del núcleo, libfabric, openmpi y el NCCLOFIcomplemento para las instancias. GPU

Encontrará las CUDA versiones compatibles de una Base DLAMI en las notas de la versión.

Nota:

  • Al ejecutar una NCCL aplicación utilizando mpirun onEFA, tendrá que especificar la ruta completa a la instalación EFA compatible de la siguiente manera:

    /opt/amazon/openmpi/bin/mpirun <command>
  • Para permitir el uso de la aplicaciónEFA, añada FI_PROVIDER="efa" al mpirun comando tal y como se muestra enEFAUtilizándolo en el DLAMI.

Preparación de un grupo de seguridad habilitado para EFA

EFArequiere un grupo de seguridad que permita todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener más información, consulte la EFA documentación.

  1. Abre la EC2 consola de Amazon en https://console.aws.amazon.com/ec2/.

  2. En el panel de navegación, elija Security Groups (Grupos de seguridad) y, a continuación, elija Create Security Group (Crear grupo de seguridad).

  3. En la ventana Create Security Group, haga lo siguiente:

    • En Nombre del grupo de seguridad, ingrese un nombre descriptivo para el grupo de seguridad, como, por ejemplo, EFA-enabled security group.

    • (Opcional) En Descripción, ingrese una breve descripción del grupo de seguridad.

    • Para ello VPC, seleccione la instancia VPC en la que desea lanzar sus instancias EFA habilitadas para dispositivos móviles.

    • Seleccione Crear.

  4. Seleccione el grupo de seguridad que ha creado y, en la pestaña Description (Descripción), copie el Group ID (ID de grupo).

  5. En las pestañas Entrante y Saliente, haga lo siguiente:

    • Elija Edit (Editar).

    • En Type (Tipo), seleccione All traffic (Todo el tráfico).

    • En Source (Origen), seleccione Custom (Personalizado).

    • Pegue el ID del grupo de seguridad que copió en el campo.

    • Seleccione Guardar.

  6. Habilite el tráfico de entrada que hace referencia a Autorización del tráfico de entrada para sus instancias de Linux. Si omite este paso, no podrá comunicarse con su DLAMI instancia.

Lanzar la instancia

EFAon the AWS Deep Learning AMIs es compatible actualmente con los siguientes tipos de instancias y sistemas operativos:

  • P3DN.24xlarge: Amazon Linux 2, Ubuntu 20.04

  • P4D.24xlarge: Amazon Linux 2, Ubuntu 20.04

  • p5.48xlarge: Amazon Linux 2, Ubuntu 20.04

En la siguiente sección, se muestra cómo lanzar una instancia habilitada. EFA DLAMI Para obtener más información sobre el lanzamiento de una instancia EFA habilitada, consulte Lanzar instancias EFA habilitadas en un grupo de ubicación en clústeres.

  1. Abre la EC2 consola de Amazon en https://console.aws.amazon.com/ec2/.

  2. Elija Iniciar instancia.

  3. En la AMI página Elige un producto compatible que DLAMI se encuentra en la página de notas DLAMI de la versión

  4. En la página Elegir un tipo de instancia , seleccione uno de los tipos de instancias admitidos y, a continuación, elija Next: Configure Instance Details. Consulte este enlace para ver la lista de instancias compatibles: Comience con EFA y MPI

  5. En la página Configurar detalles de instancia, haga lo siguiente:

    • En Número de instancias, introduce el número de instancias EFA habilitadas que deseas lanzar.

    • En Red y subred, selecciona la subred VPC y en la que quieres lanzar las instancias.

    • [Opcional] Para el grupo de ubicación, seleccione Agregar instancia al grupo de ubicación. Para lograr el mejor rendimiento, lance las instancias dentro de un grupo de ubicación.

    • [Opcional] En el nombre del grupo de ubicación, seleccione Añadir a un nuevo grupo de ubicación, introduzca un nombre descriptivo para el grupo de ubicación y, a continuación, en Estrategia de grupo de ubicación, seleccione clúster.

    • Asegúrese de activar el “Elastic Fabric Adapter” en esta página. Si esta opción está deshabilitada, cambie la subred por una que admita el tipo de instancia seleccionado.

    • En la sección Interfaces de red, para el dispositivo eth0, elija Nueva interfaz de red. Si lo desea, puede especificar una IPv4 dirección principal y una o más IPv4 direcciones secundarias. Si vas a lanzar la instancia en una subred que tiene un IPv6 CIDR bloque asociado, si lo deseas, puedes especificar una IPv6 dirección principal y una o más IPv6 direcciones secundarias.

    • Elija Siguiente: Añadir almacenamiento.

  6. En la página Añadir almacenamiento, especifica los volúmenes que deseas adjuntar a las instancias además de los volúmenes especificados en ella AMI (como el volumen del dispositivo raíz) y, a continuación, selecciona Siguiente: Añadir etiquetas.

  7. En la página Añadir etiquetas, especifique etiquetas para las instancias, por ejemplo, un nombre fácil de recordar, y, a continuación, elija Siguiente: Configurar grupo de seguridad.

  8. En la página Configurar un grupo de seguridad, en Asignar un grupo de seguridad, seleccione Seleccionar un grupo de seguridad existente y, a continuación, seleccione el grupo de seguridad que creó anteriormente.

  9. Elija Review and Launch (Revisar y lanzar).

  10. En la página Revisar inicialización de instancia, revise la configuración y, a continuación, elija Iniciar para elegir un par de claves e iniciar las instancias.

Verificación de una asociación de EFA

En la consola

Tras lanzar la instancia, compruebe los detalles de la instancia en la AWS consola. Para ello, selecciona la instancia en la EC2 consola y consulta la pestaña de descripción en el panel inferior de la página. Busque el parámetro “Network Interfaces: eth0” y haga clic en eth0 para que aparezca una ventana emergente. Asegúrese de que la opción “Elastic Fabric Adapter” esté habilitada.

Si no EFA está habilitada, puedes solucionar este problema de una de las siguientes maneras:

  • Finalizar la EC2 instancia y lanzar una nueva siguiendo los mismos pasos. Asegúrese de que EFA esté asociado.

  • Asocie EFA a una instancia existente.

    1. En la EC2 consola, vaya a Interfaces de red.

    2. Haga clic en Create a Network Interface (Crear una interfaz de red).

    3. Seleccione la misma subred en la que se encuentra la instancia.

    4. Asegúrese de habilitar “Elastic Fabric Adapter” y haga clic en Crear.

    5. Vuelva a la pestaña EC2 Instancias y seleccione su instancia.

    6. Ve a Acciones: estado de la instancia y detiene la instancia antes de adjuntarlaEFA.

    7. En Actions (Acciones), seleccione Networking: Attach Network Interface (Redes: Asociar interfaz de red).

    8. Seleccione la interfaz que acaba de crear y haga clic en Attach (Asociar).

    9. Reinicie la instancia.

En la instancia

El siguiente script de prueba ya está presente enDLAMI. Ejecútelo para asegurarse de que los módulos de kernel estén cargados correctamente.

$ fi_info -p efa

El resultado debería tener un aspecto similar al siguiente.

provider: efa fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-rdm version: 2.0 type: FI_EP_RDM protocol: FI_PROTO_EFA provider: efa fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-dgrm version: 2.0 type: FI_EP_DGRAM protocol: FI_PROTO_EFA provider: efa;ofi_rxd fabric: EFA-fe80::e5:56ff:fe34:56a8 domain: efa_0-dgrm version: 1.0 type: FI_EP_RDM protocol: FI_PROTO_RXD

Verificación de la configuración del grupo de seguridad

El siguiente script de prueba ya está presente en elDLAMI. Ejecútelo para asegurarse de que el grupo de seguridad que creó esté configurado correctamente.

$ cd /opt/amazon/efa/test/ $ ./efa_test.sh

El resultado debería tener un aspecto similar al siguiente.

Starting server... Starting client... bytes #sent #ack total time MB/sec usec/xfer Mxfers/sec 64 10 =10 1.2k 0.02s 0.06 1123.55 0.00 256 10 =10 5k 0.00s 17.66 14.50 0.07 1k 10 =10 20k 0.00s 67.81 15.10 0.07 4k 10 =10 80k 0.00s 237.45 17.25 0.06 64k 10 =10 1.2m 0.00s 921.10 71.15 0.01 1m 10 =10 20m 0.01s 2122.41 494.05 0.00

Si deja de responder o no se completa, asegúrese de que el grupo de seguridad tenga las reglas de entrada/salida correctas.