View a markdown version of this page

Kelola perangkat GPU NVIDIA di Amazon EKS - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kelola perangkat GPU NVIDIA di Amazon EKS

GPU NVIDIA banyak digunakan untuk pelatihan pembelajaran mesin, inferensi, dan beban kerja komputasi kinerja tinggi. Amazon EKS mendukung dua mekanisme untuk mengelola perangkat GPU NVIDIA di kluster EKS Anda: driver NVIDIA DRA untuk GPU dan plugin perangkat NVIDIA Kubernetes.

Disarankan untuk menggunakan driver NVIDIA DRA untuk penerapan baru pada cluster yang menjalankan Kubernetes versi 1.34 atau yang lebih baru dengan grup node terkelola EKS atau grup node yang dikelola sendiri. Driver NVIDIA DRA memungkinkan alokasi GPU yang fleksibel dan berbagi GPU antar kontainer.

Driver NVIDIA DRA tidak didukung dengan Karpenter atau Mode Otomatis EKS. Gunakan plugin perangkat NVIDIA dengan Karpenter dan Mode Otomatis EKS. Plugin perangkat NVIDIA juga tetap didukung untuk grup node terkelola EKS dan node yang dikelola sendiri.

Driver NVIDIA DRA vs plugin perangkat NVIDIA

Kemampuan Pengemudi NVIDIA DRA Plugin perangkat NVIDIA

Versi Kubernetes minimum

1,34

Semua versi EKS-supported Kubernetes

EKS Komputasi

Grup node terkelola, node yang dikelola sendiri

Mode Otomatis EKS, Karpenter, grup simpul terkelola, node yang dikelola sendiri

EKS-optimized AMI

AL2023 (NVIDIA)

AL2023 (NVIDIA), Bottlerocket

Iklan perangkat

Atribut kaya melalui ResourceSlice objek termasuk model GPU, memori, versi driver, dan topologi

Jumlah bilangan bulat dari sumber daya yang nvidia.com/gpu diperluas

Berbagi GPU

Beberapa kontainer dalam Pod yang sama dapat berbagi GPU melalui referensi bersama ResourceClaim

Tidak didukung. Setiap GPU secara eksklusif dialokasikan ke satu kontainer.

ComputeDomains

Mengelola Multi-Node NVLink (MNNVL) melalui ComputeDomain sumber daya untuk komunikasi GPU multi-node yang aman

Tidak didukung

Attribute-based seleksi

Filter GPU berdasarkan model, memori, atau atribut lainnya menggunakan ekspresi CEL

Tidak didukung

Topology-aware Alokasi EFA

DRA-native kesadaran topologi

Kesadaran topologi otomatis (hanya AMI EKS-optimized AL2023)

Instal driver NVIDIA DRA

Driver NVIDIA DRA untuk GPU mengelola dua jenis sumber daya: GPU dan. ComputeDomains Ini menjalankan dua plugin DRA kubelet: dan. gpu-kubelet-plugin compute-domain-kubelet-plugin Masing-masing dapat diaktifkan atau dinonaktifkan secara terpisah selama instalasi. Panduan ini berfokus pada alokasi GPU. Untuk menggunakan ComputeDomains, lihatGunakan P6e-GB200 UltraServers dengan Amazon EKS.

Prasyarat

  • Cluster Amazon EKS yang menjalankan Kubernetes versi 1.34 atau yang lebih baru dengan grup node terkelola EKS atau grup node yang dikelola sendiri.

  • Node dengan jenis instans GPU NVIDIA (seperti P atau G instance).

  • Node dengan komponen tingkat host diinstal untuk GPU NVIDIA. Saat menggunakan EKS-optimized AL2023 atau Bottlerocket NVIDIA AMI, driver NVIDIA tingkat host, driver mode pengguna CUDA, dan toolkit kontainer sudah diinstal sebelumnya.

  • Helm diinstal di lingkungan baris perintah Anda, lihat petunjuk Setup Helm untuk informasi selengkapnya.

  • kubectldikonfigurasi untuk berkomunikasi dengan cluster Anda, lihat Instal atau perbarui kubectl untuk informasi selengkapnya.

Prosedur

penting

Saat menggunakan driver NVIDIA DRA untuk manajemen perangkat GPU, itu tidak dapat digunakan bersama plugin perangkat NVIDIA pada node yang sama. Lihat Kubernetes KEP-5004upstream untuk pembaruan.

penting

Menggunakan driver NVIDIA DRA dengan Bottlerocket saat ini tidak didukung.

  1. Tambahkan repositori bagan Helm driver NVIDIA DRA.

    helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
  2. Perbarui repositori Helm lokal Anda.

    helm repo update
  3. Dapatkan versi terbaru dari driver NVIDIA DRA.

    helm search repo nvidia/nvidia-dra
  4. Instal driver NVIDIA DRA.

    helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \ --create-namespace \ --namespace nvidia-dra-driver-gpu \ --set resources.computeDomains.enabled=false \ --set 'gpuResourcesEnabledOverride=true'

    Untuk opsi konfigurasi lanjutan, lihat bagan Helm driver NVIDIA DRA.

  5. Verifikasi bahwa pod driver DRA sedang berjalan.

    kubectl get pods -n nvidia-dra-driver-gpu
  6. Verifikasi bahwa DeviceClass objek telah dibuat.

    kubectl get deviceclass
    NAME AGE gpu.nvidia.com 60s
  7. Verifikasi bahwa ResourceSlice objek dipublikasikan untuk node GPU Anda.

    kubectl get resourceslice

    Untuk meminta GPU NVIDIA menggunakan driver DRA, buat referensi ResourceClaimTemplate yang mereferensikan gpu.nvidia.com DeviceClass dan mereferensikannya dalam spesifikasi Pod Anda. Contoh berikut meminta GPU tunggal. Lihat langkah-langkah Topology-aware EFA dan alokasi GPU/Neuron perangkat untuk mengalokasikan GPU NVIDIA dengan antarmuka EFA yang selaras dengan topologi.

    apiVersion: resource.k8s.io/v1 kind: ResourceClaimTemplate metadata: name: single-gpu spec: spec: devices: requests: - name: gpu exactly: deviceClassName: gpu.nvidia.com count: 1 --- apiVersion: v1 kind: Pod metadata: name: gpu-workload spec: containers: - name: app ... resources: claims: - name: gpu resourceClaims: - name: gpu resourceClaimTemplateName: single-gpu tolerations: - key: "nvidia.com/gpu" operator: "Exists" effect: "NoSchedule"

Instal plugin perangkat NVIDIA Kubernetes

Plugin perangkat NVIDIA Kubernetes mengiklankan GPU NVIDIA sebagai sumber daya yang diperluas. nvidia.com/gpu Anda meminta GPU dalam permintaan dan batasan sumber daya kontainer.

Prasyarat

  • Cluster Amazon EKS.

  • Node dengan tipe instans GPU NVIDIA menggunakan EKS-optimized AL2023 NVIDIA AMI. AMI EKS-optimized Bottlerocket menyertakan plugin perangkat NVIDIA dan tidak diperlukan instalasi terpisah.

  • Helm diinstal di lingkungan baris perintah Anda, lihat petunjuk Setup Helm untuk informasi selengkapnya.

  • kubectldikonfigurasi untuk berkomunikasi dengan cluster Anda, lihat Instal atau perbarui kubectl untuk informasi selengkapnya.

Prosedur

  1. Tambahkan plugin perangkat NVIDIA Repositori bagan helm.

    helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
  2. Perbarui repositori Helm lokal Anda.

    helm repo update
  3. Instal plugin perangkat NVIDIA Kubernetes.

    helm install nvdp nvdp/nvidia-device-plugin \ --namespace nvidia \ --create-namespace \ --set gfd.enabled=true
    Nonaktifkan MOFED pada node dengan perangkat EFA

    Dimulai dengan k8s-device-plugin v0.19.0, --mofed-enabled flag default ke. true Hal ini menyebabkan plugin perangkat NVIDIA memasang semua /dev/infiniband/uverbs* perangkat ke dalam wadah yang meminta GPU ()nvidia.com/gpu. Ini bertentangan dengan plugin perangkat AWS EFA, yang mengelola pemasangan uverbs perangkat. Beban kerja yang meminta lebih sedikit dari semua perangkat EFA pada node terpengaruh karena plugin perangkat NVIDIA mengklaim semua uverbs perangkat secara default.

    Jika node Anda memiliki perangkat EFA, nonaktifkan MOFED secara eksplisit saat menginstal plugin perangkat NVIDIA:

    helm upgrade --install nvdp nvdp/nvidia-device-plugin \ --namespace nvidia \ --create-namespace \ --set gfd.enabled=true \ --set mofedEnabled=false

    Jika Anda mengelola plugin perangkat NVIDIA melalui operator GPU NVIDIA, nonaktifkan MOFED menggunakan bidang: devicePlugin.env

    helm upgrade --install gpu-operator nvidia/gpu-operator \ --namespace gpu-operator \ --set 'devicePlugin.env[0].name=MOFED_ENABLED' \ --set 'devicePlugin.env[0].value=false'

    Untuk informasi selengkapnya, lihat NVIDIA k8s-device-plugin issue #1692.

    catatan

    Anda juga dapat menginstal dan mengelola plugin perangkat NVIDIA Kubernetes menggunakan Operator GPU NVIDIA, yang mengotomatiskan pengelolaan semua komponen perangkat lunak NVIDIA yang diperlukan untuk menyediakan GPU.

  4. Verifikasi plugin perangkat NVIDIA DaemonSet sedang berjalan.

    kubectl get ds -n nvidia nvdp-nvidia-device-plugin
    NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE nvdp-nvidia-device-plugin 2 2 2 2 2 <none> 60s
  5. Verifikasi bahwa node Anda memiliki GPU yang dapat dialokasikan.

    kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"

    Contoh output adalah sebagai berikut.

    NAME GPU ip-192-168-11-225.us-west-2.compute.internal 1 ip-192-168-24-96.us-west-2.compute.internal 1

Minta GPU NVIDIA di Pod

Untuk meminta GPU NVIDIA menggunakan plugin perangkat, tentukan nvidia.com/gpu sumber daya dalam permintaan dan batasan sumber daya penampung Anda.

apiVersion: v1 kind: Pod metadata: name: nvidia-smi spec: restartPolicy: OnFailure containers: - name: gpu-demo image: public.ecr.aws/amazonlinux/amazonlinux:2023-minimal command: ["/bin/sh", "-c"] args: ["nvidia-smi && tail -f /dev/null"] resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 tolerations: - key: "nvidia.com/gpu" operator: "Equal" value: "true" effect: "NoSchedule"

Untuk menjalankan pengujian ini, terapkan manifes dan lihat log:

kubectl apply -f nvidia-smi.yaml kubectl logs nvidia-smi

Contoh output adalah sebagai berikut.

+-----------------------------------------------------------------------------------------+ | NVIDIA-SMI XXX.XXX.XX Driver Version: XXX.XXX.XX CUDA Version: XX.X | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA L4 On | 00000000:31:00.0 Off | 0 | | N/A 27C P8 11W / 72W | 0MiB / 23034MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+