Bantu tingkatkan halaman ini
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Siapkan klaster Amazon EKS untuk beban AI/ML kerja
Tip
Daftar
Bagian ini memandu Anda membuat klaster Amazon EKS yang siap menjalankan beban kerja inferensi, termasuk komputasi dengan GPU, tumpukan pemantauan, dan penyimpanan Amazon S3 untuk bobot model, bersama dengan izin IAM yang diperlukan. AWS
Gambaran umum arsitektur
Pengaturan membuat infrastruktur berikut:
-
Kluster GPU-enabled EKS dengan node — A Karpenter-managed NodePool yang secara dinamis menyediakan instans G-family GPU menggunakan kapasitas Spot dengan fallback. On-Demand
-
Tumpukan pemantauan — Prometheus mengikis metrik cluster, node, dan GPU dan menulisnya dari jarak jauh ke Amazon Managed Service for Prometheus (AMP). Grafana menyediakan dasbor untuk visualisasi. Eksportir NVIDIA DCGM menambahkan GPU-specific metrik termasuk pemanfaatan, memori, suhu, penarikan daya, bandwidth NVLink, dan aktivitas tensor.
-
Timbangan model S3 bucket — Bucket Amazon S3 untuk menyimpan bobot model, dengan asosiasi EKS Pod Identity yang memberikan akses Pod beban kerja. read/write
Opsi komputasi cluster
Panduan ini menyediakan dua jalur untuk menyiapkan cluster Anda. Pilih satu dan ikuti secara konsisten melalui semua langkah.
-
Mode Otomatis EKS - Satu perintah menyediakan kluster EKS dengan Mode Otomatis EKS diaktifkan. Semua komponen yang diperlukan disediakan secara out-of-the-box termasuk Karpenter-based auto-scaling, agen pemantauan node EKS, penarikan kontainer cepat dengan SOCI, dan plugin perangkat NVIDIA.
-
Self-managed Karpenter — Anda menginstal dan mengonfigurasi setiap komponen secara eksplisit: Karpenter via
eksctl, perbaikan node otomatis melalui gerbang fiturnya, agen pemantauan simpul EKS sebagai add-on EKS, dan plugin perangkat NVIDIA melalui Helm. Anda juga membuat kustomEC2NodeClassyang menggunakan AMI EKS-optimized NVIDIA AL2023 dan mengonfigurasi SOCI.
Apa yang akan Anda atur
| Langkah | Deskripsi |
|---|---|
|
Buat cluster |
Menyediakan bidang kontrol EKS dan komponen tingkat cluster yang diperlukan untuk beban kerja GPU. |
|
Buat node GPU yang disediakan secara dinamis |
Tentukan GPU dinamis NodePool yang menyediakan instance G-family GPU saat beban kerja dijadwalkan. |
|
Uji dengan pod sampel |
Validasi penyiapan end-to-end dengan menjalankan |
|
Tambahkan kapasitas cadangan (opsional) |
Lampirkan Reservasi On-Demand Kapasitas (ODCR) ke reservasi pertama Anda NodeClass dengan fallback. Spot/On-Demand |
|
Instal pemantauan |
Terapkan kube-prometheus-stack (Prometheus+Grafana) dengan remote-write ke AMP, ditambah NVIDIA DCGM Exporter untuk metrik GPU. |
|
Buat ember bobot model |
Buat bucket S3 dan konfigurasikan EKS Pod Identity sehingga pod beban kerja dapat membaca dan menulis bobot model. |
Memulai
Untuk petunjuk langkah demi langkah menggunakan AWS CLI, lihat. Siapkan klaster Amazon EKS untuk AI/ML beban kerja menggunakan CLI