Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kelola perangkat GPU NVIDIA di Amazon EKS
GPU NVIDIA banyak digunakan untuk pelatihan pembelajaran mesin, inferensi, dan beban kerja komputasi kinerja tinggi. Amazon EKS mendukung dua mekanisme untuk mengelola perangkat GPU NVIDIA di kluster EKS Anda: driver NVIDIA DRA untuk GPU dan plugin perangkat NVIDIA Kubernetes.
Disarankan untuk menggunakan driver NVIDIA DRA untuk penerapan baru pada cluster yang menjalankan Kubernetes versi 1.34 atau yang lebih baru dengan grup node terkelola EKS atau grup node yang dikelola sendiri. Driver NVIDIA DRA memungkinkan alokasi GPU yang fleksibel dan berbagi GPU antar kontainer.
Driver NVIDIA DRA tidak didukung dengan Karpenter atau Mode Otomatis EKS. Gunakan plugin perangkat NVIDIA dengan Karpenter dan Mode Otomatis EKS. Plugin perangkat NVIDIA juga tetap didukung untuk grup node terkelola EKS dan node yang dikelola sendiri.
Driver NVIDIA DRA vs plugin perangkat NVIDIA
| Kemampuan | Pengemudi NVIDIA DRA | Plugin perangkat NVIDIA |
|---|---|---|
|
Versi Kubernetes minimum |
1,34 |
Semua versi EKS-supported Kubernetes |
|
EKS Komputasi |
Grup node terkelola, node yang dikelola sendiri |
Mode Otomatis EKS, Karpenter, grup simpul terkelola, node yang dikelola sendiri |
|
EKS-optimized AMI |
AL2023 (NVIDIA) |
AL2023 (NVIDIA), Bottlerocket |
|
Iklan perangkat |
Atribut kaya melalui |
Jumlah bilangan bulat dari sumber daya yang |
|
Berbagi GPU |
Beberapa kontainer dalam Pod yang sama dapat berbagi GPU melalui referensi bersama |
Tidak didukung. Setiap GPU secara eksklusif dialokasikan ke satu kontainer. |
|
ComputeDomains |
Mengelola Multi-Node NVLink (MNNVL) melalui |
Tidak didukung |
|
Attribute-based seleksi |
Filter GPU berdasarkan model, memori, atau atribut lainnya menggunakan ekspresi CEL |
Tidak didukung |
|
Topology-aware Alokasi EFA |
DRA-native kesadaran topologi |
Kesadaran topologi otomatis (hanya AMI EKS-optimized AL2023) |
Instal driver NVIDIA DRA
Driver NVIDIA DRA untuk GPU mengelola dua jenis sumber daya: GPU dan. ComputeDomains Ini menjalankan dua plugin DRA kubelet: dan. gpu-kubelet-plugin compute-domain-kubelet-plugin Masing-masing dapat diaktifkan atau dinonaktifkan secara terpisah selama instalasi. Panduan ini berfokus pada alokasi GPU. Untuk menggunakan ComputeDomains, lihatGunakan P6e-GB200 UltraServers dengan Amazon EKS.
Prasyarat
-
Cluster Amazon EKS yang menjalankan Kubernetes versi 1.34 atau yang lebih baru dengan grup node terkelola EKS atau grup node yang dikelola sendiri.
-
Node dengan jenis instans GPU NVIDIA (seperti
PatauGinstance). -
Node dengan komponen tingkat host diinstal untuk GPU NVIDIA. Saat menggunakan EKS-optimized AL2023 atau Bottlerocket NVIDIA AMI, driver NVIDIA tingkat host, driver mode pengguna CUDA, dan toolkit kontainer sudah diinstal sebelumnya.
-
Helm diinstal di lingkungan baris perintah Anda, lihat petunjuk Setup Helm untuk informasi selengkapnya.
-
kubectldikonfigurasi untuk berkomunikasi dengan cluster Anda, lihat Instal atau perbarui kubectl untuk informasi selengkapnya.
Prosedur
penting
Saat menggunakan driver NVIDIA DRA untuk manajemen perangkat GPU, itu tidak dapat digunakan bersama plugin perangkat NVIDIA pada node yang sama. Lihat Kubernetes KEP-5004
penting
Menggunakan driver NVIDIA DRA dengan Bottlerocket saat ini tidak didukung.
-
Tambahkan repositori bagan Helm driver NVIDIA DRA.
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia -
Perbarui repositori Helm lokal Anda.
helm repo update -
Dapatkan versi terbaru dari driver NVIDIA DRA.
helm search repo nvidia/nvidia-dra -
Instal driver NVIDIA DRA.
helm install nvidia-dra-driver-gpu nvidia/nvidia-dra-driver-gpu \ --create-namespace \ --namespace nvidia-dra-driver-gpu \ --set resources.computeDomains.enabled=false \ --set 'gpuResourcesEnabledOverride=true'Untuk opsi konfigurasi lanjutan, lihat bagan Helm driver NVIDIA DRA
. -
Verifikasi bahwa pod driver DRA sedang berjalan.
kubectl get pods -n nvidia-dra-driver-gpu -
Verifikasi bahwa
DeviceClassobjek telah dibuat.kubectl get deviceclassNAME AGE gpu.nvidia.com 60s -
Verifikasi bahwa
ResourceSliceobjek dipublikasikan untuk node GPU Anda.kubectl get resourcesliceUntuk meminta GPU NVIDIA menggunakan driver DRA, buat referensi
ResourceClaimTemplateyang mereferensikangpu.nvidia.comDeviceClassdan mereferensikannya dalam spesifikasi Pod Anda. Contoh berikut meminta GPU tunggal. Lihat langkah-langkah Topology-aware EFA dan alokasi GPU/Neuron perangkat untuk mengalokasikan GPU NVIDIA dengan antarmuka EFA yang selaras dengan topologi.apiVersion: resource.k8s.io/v1 kind: ResourceClaimTemplate metadata: name: single-gpu spec: spec: devices: requests: - name: gpu exactly: deviceClassName: gpu.nvidia.com count: 1 --- apiVersion: v1 kind: Pod metadata: name: gpu-workload spec: containers: - name: app ... resources: claims: - name: gpu resourceClaims: - name: gpu resourceClaimTemplateName: single-gpu tolerations: - key: "nvidia.com/gpu" operator: "Exists" effect: "NoSchedule"
Instal plugin perangkat NVIDIA Kubernetes
Plugin perangkat NVIDIA Kubernetes mengiklankan GPU NVIDIA sebagai sumber daya yang diperluas. nvidia.com/gpu Anda meminta GPU dalam permintaan dan batasan sumber daya kontainer.
Prasyarat
-
Cluster Amazon EKS.
-
Node dengan tipe instans GPU NVIDIA menggunakan EKS-optimized AL2023 NVIDIA AMI. AMI EKS-optimized Bottlerocket menyertakan plugin perangkat NVIDIA dan tidak diperlukan instalasi terpisah.
-
Helm diinstal di lingkungan baris perintah Anda, lihat petunjuk Setup Helm untuk informasi selengkapnya.
-
kubectldikonfigurasi untuk berkomunikasi dengan cluster Anda, lihat Instal atau perbarui kubectl untuk informasi selengkapnya.
Prosedur
-
Tambahkan plugin perangkat NVIDIA Repositori bagan helm.
helm repo add nvdp https://nvidia.github.io/k8s-device-plugin -
Perbarui repositori Helm lokal Anda.
helm repo update -
Instal plugin perangkat NVIDIA Kubernetes.
helm install nvdp nvdp/nvidia-device-plugin \ --namespace nvidia \ --create-namespace \ --set gfd.enabled=trueNonaktifkan MOFED pada node dengan perangkat EFA
Dimulai dengan
k8s-device-pluginv0.19.0,--mofed-enabledflag default ke.trueHal ini menyebabkan plugin perangkat NVIDIA memasang semua/dev/infiniband/uverbs*perangkat ke dalam wadah yang meminta GPU ()nvidia.com/gpu. Ini bertentangan dengan plugin perangkat AWS EFA, yang mengelola pemasanganuverbsperangkat. Beban kerja yang meminta lebih sedikit dari semua perangkat EFA pada node terpengaruh karena plugin perangkat NVIDIA mengklaim semuauverbsperangkat secara default.Jika node Anda memiliki perangkat EFA, nonaktifkan MOFED secara eksplisit saat menginstal plugin perangkat NVIDIA:
helm upgrade --install nvdp nvdp/nvidia-device-plugin \ --namespace nvidia \ --create-namespace \ --set gfd.enabled=true \ --set mofedEnabled=falseJika Anda mengelola plugin perangkat NVIDIA melalui operator GPU NVIDIA
, nonaktifkan MOFED menggunakan bidang: devicePlugin.envhelm upgrade --install gpu-operator nvidia/gpu-operator \ --namespace gpu-operator \ --set 'devicePlugin.env[0].name=MOFED_ENABLED' \ --set 'devicePlugin.env[0].value=false'Untuk informasi selengkapnya, lihat NVIDIA k8s-device-plugin
issue #1692. catatan
Anda juga dapat menginstal dan mengelola plugin perangkat NVIDIA Kubernetes menggunakan Operator GPU NVIDIA
, yang mengotomatiskan pengelolaan semua komponen perangkat lunak NVIDIA yang diperlukan untuk menyediakan GPU. -
Verifikasi plugin perangkat NVIDIA DaemonSet sedang berjalan.
kubectl get ds -n nvidia nvdp-nvidia-device-pluginNAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE nvdp-nvidia-device-plugin 2 2 2 2 2 <none> 60s -
Verifikasi bahwa node Anda memiliki GPU yang dapat dialokasikan.
kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"Contoh output adalah sebagai berikut.
NAME GPU ip-192-168-11-225.us-west-2.compute.internal 1 ip-192-168-24-96.us-west-2.compute.internal 1
Minta GPU NVIDIA di Pod
Untuk meminta GPU NVIDIA menggunakan plugin perangkat, tentukan nvidia.com/gpu sumber daya dalam permintaan dan batasan sumber daya penampung Anda.
apiVersion: v1 kind: Pod metadata: name: nvidia-smi spec: restartPolicy: OnFailure containers: - name: gpu-demo image: public.ecr.aws/amazonlinux/amazonlinux:2023-minimal command: ["/bin/sh", "-c"] args: ["nvidia-smi && tail -f /dev/null"] resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 tolerations: - key: "nvidia.com/gpu" operator: "Equal" value: "true" effect: "NoSchedule"
Untuk menjalankan pengujian ini, terapkan manifes dan lihat log:
kubectl apply -f nvidia-smi.yaml kubectl logs nvidia-smi
Contoh output adalah sebagai berikut.
+-----------------------------------------------------------------------------------------+ | NVIDIA-SMI XXX.XXX.XX Driver Version: XXX.XXX.XX CUDA Version: XX.X | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA L4 On | 00000000:31:00.0 Off | 0 | | N/A 27C P8 11W / 72W | 0MiB / 23034MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+