Ayude a mejorar esta página
Para contribuir a esta guía del usuario, elija el enlace Edit this page on GitHub que se encuentra en el panel derecho de cada página.
Las AMI de Amazon Linux aceleradas y optimizadas para Amazon EKS se crean sobre las AMI de Amazon Linux optimizadas para Amazon EKS estándar. Para obtener información detallada sobre estas AMI, consulte AMI de Amazon Linux acelerada optimizada para Amazon EKS. En el siguiente texto se describe cómo habilitar las cargas de trabajo basadas en AWS Neuron.
Para habilitar AWS cargas de trabajo basadas en Neuron (acelerador de machine learning)
Para obtener información detallada sobre las cargas de trabajo de entrenamiento e inferencia que utilizan Neuron en Amazon EKS, consulte las siguientes referencias:
-
Containers - Kubernetes - Getting Started
en la documentación de AWS Neuron -
Training
en “AWS Neuron EKS Samples” en GitHub
El siguiente procedimiento describe cómo ejecutar una carga de trabajo en una instancia basada en GPU con AMI aceleradas y optimizadas para Amazon EKS.
-
Una vez que los nodos de GPU estén unidos al clúster, debe aplicar el complemento de dispositivos NVIDIA para Kubernetes
como un DaemonSet en su clúster. Reemplace vX.X.X
con la versión NVIDIA/k8s-device-plugindeseada antes de ejecutar el siguiente comando. kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/vX.X.X/deployments/static/nvidia-device-plugin.yml
-
Puede verificar que los nodos tienen GPU asignables con el siguiente comando.
kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"
-
Cree un archivo denominado
nvidia-smi.yaml
con el siguiente contenido. Reemplace laetiqueta
por la etiqueta que desee para nvidia/cuda. Este manifiesto lanza un contenedor de NVIDIA CUDA que ejecuta nvidia-smi
en un nodo.apiVersion: v1 kind: Pod metadata: name: nvidia-smi spec: restartPolicy: OnFailure containers: - name: nvidia-smi image: nvidia/cuda:tag args: - "nvidia-smi" resources: limits: nvidia.com/gpu: 1
-
Aplique el manifiesto con el siguiente comando.
kubectl apply -f nvidia-smi.yaml
-
Una vez que el pod termine de ejecutarse, consulte sus registros con el siguiente comando.
kubectl logs nvidia-smi
Un ejemplo de salida sería el siguiente.
Mon Aug 6 20:23:31 20XX +-----------------------------------------------------------------------------+ | NVIDIA-SMI XXX.XX Driver Version: XXX.XX | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... On | 00000000:00:1C.0 Off | 0 | | N/A 46C P0 47W / 300W | 0MiB / 16160MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+