Ejecución de contenedores acelerados por GPU (Linux en EC2)

Modo de enfoque

Ejecución de contenedores acelerados por GPU (Linux en EC2) - Amazon EKS

Las AMI de Amazon Linux aceleradas y optimizadas para Amazon EKS se crean sobre las AMI de Amazon Linux optimizadas para Amazon EKS estándar. Para obtener información detallada sobre estas AMI, consulte AMI de Amazon Linux acelerada optimizada para Amazon EKS. En el siguiente texto se describe cómo habilitar las cargas de trabajo basadas en AWS Neuron.

Para habilitar AWS cargas de trabajo basadas en Neuron (acelerador de machine learning)

Para obtener información detallada sobre las cargas de trabajo de entrenamiento e inferencia que utilizan Neuron en Amazon EKS, consulte las siguientes referencias:

Containers - Kubernetes - Getting Started en la documentación de AWS Neuron
Training en “AWS Neuron EKS Samples” en GitHub
Implementación de cargas de trabajo de inferencia de machine learning con AWSInferentia en Amazon EKS

El siguiente procedimiento describe cómo ejecutar una carga de trabajo en una instancia basada en GPU con AMI aceleradas y optimizadas para Amazon EKS.

Una vez que los nodos de GPU estén unidos al clúster, debe aplicar el complemento de dispositivos NVIDIA para Kubernetes como un DaemonSet en su clúster. Reemplace vX.X.X con la versión NVIDIA/k8s-device-plugin deseada antes de ejecutar el siguiente comando.
```
kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/vX.X.X/deployments/static/nvidia-device-plugin.yml
```

Puede verificar que los nodos tienen GPU asignables con el siguiente comando.


kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"

Cree un archivo denominado nvidia-smi.yaml con el siguiente contenido. Reemplace la etiqueta por la etiqueta que desee para nvidia/cuda. Este manifiesto lanza un contenedor de NVIDIA CUDA que ejecuta nvidia-smi en un nodo.


apiVersion: v1
kind: Pod
metadata:
  name: nvidia-smi
spec:
  restartPolicy: OnFailure
  containers:
  - name: nvidia-smi
    image: nvidia/cuda:tag
    args:
    - "nvidia-smi"
    resources:
      limits:
        nvidia.com/gpu: 1

Aplique el manifiesto con el siguiente comando.
```
kubectl apply -f nvidia-smi.yaml
```

Una vez que el pod termine de ejecutarse, consulte sus registros con el siguiente comando.


kubectl logs nvidia-smi

Un ejemplo de salida sería el siguiente.


Mon Aug  6 20:23:31 20XX
+-----------------------------------------------------------------------------+
| NVIDIA-SMI XXX.XX                 Driver Version: XXX.XX                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:1C.0 Off |                    0 |
| N/A   46C    P0    47W / 300W |      0MiB / 16160MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Preparación para el ML

Ejecución de AMI de GPU de Windows

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Ejecución de contenedores acelerados por GPU (Linux en EC2)

Para habilitar AWS cargas de trabajo basadas en Neuron (acelerador de machine learning)

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?