Gambaran umum arsitektur Opsi komputasi cluster Apa yang akan Anda atur Memulai

Siapkan klaster Amazon EKS untuk beban AI/ML kerja

Tip

Daftar untuk AI/ML lokakarya Amazon EKS mendatang.

Bagian ini memandu Anda membuat klaster Amazon EKS yang siap menjalankan beban kerja inferensi, termasuk komputasi dengan GPU, tumpukan pemantauan, dan penyimpanan Amazon S3 untuk bobot model, bersama dengan izin IAM yang diperlukan. AWS

Gambaran umum arsitektur

Pengaturan membuat infrastruktur berikut:

Kluster GPU-enabled EKS dengan node — A Karpenter-managed NodePool yang secara dinamis menyediakan instans G-family GPU menggunakan kapasitas Spot dengan fallback. On-Demand
Tumpukan pemantauan — Prometheus mengikis metrik cluster, node, dan GPU dan menulisnya dari jarak jauh ke Amazon Managed Service for Prometheus (AMP). Grafana menyediakan dasbor untuk visualisasi. Eksportir NVIDIA DCGM menambahkan GPU-specific metrik termasuk pemanfaatan, memori, suhu, penarikan daya, bandwidth NVLink, dan aktivitas tensor.
Timbangan model S3 bucket — Bucket Amazon S3 untuk menyimpan bobot model, dengan asosiasi EKS Pod Identity yang memberikan akses Pod beban kerja. read/write

Opsi komputasi cluster

Panduan ini menyediakan dua jalur untuk menyiapkan cluster Anda. Pilih satu dan ikuti secara konsisten melalui semua langkah.

Mode Otomatis EKS - Satu perintah menyediakan kluster EKS dengan Mode Otomatis EKS diaktifkan. Semua komponen yang diperlukan disediakan secara out-of-the-box termasuk Karpenter-based auto-scaling, agen pemantauan node EKS, penarikan kontainer cepat dengan SOCI, dan plugin perangkat NVIDIA.
Self-managed Karpenter — Anda menginstal dan mengonfigurasi setiap komponen secara eksplisit: Karpenter viaeksctl, perbaikan node otomatis melalui gerbang fiturnya, agen pemantauan simpul EKS sebagai add-on EKS, dan plugin perangkat NVIDIA melalui Helm. Anda juga membuat kustom EC2NodeClass yang menggunakan AMI EKS-optimized NVIDIA AL2023 dan mengonfigurasi SOCI.

Apa yang akan Anda atur

Langkah	Deskripsi
Buat cluster	Menyediakan bidang kontrol EKS dan komponen tingkat cluster yang diperlukan untuk beban kerja GPU.
Buat node GPU yang disediakan secara dinamis	Tentukan GPU dinamis NodePool yang menyediakan instance G-family GPU saat beban kerja dijadwalkan.
Uji dengan pod sampel	Validasi penyiapan end-to-end dengan menjalankan `nvidia-smi` pod yang memicu Karpenter untuk menyediakan node. GPU-enabled
Tambahkan kapasitas cadangan (opsional)	Lampirkan Reservasi On-Demand Kapasitas (ODCR) ke reservasi pertama Anda NodeClass dengan fallback. Spot/On-Demand
Instal pemantauan	Terapkan kube-prometheus-stack (Prometheus+Grafana) dengan remote-write ke AMP, ditambah NVIDIA DCGM Exporter untuk metrik GPU.
Buat ember bobot model	Buat bucket S3 dan konfigurasikan EKS Pod Identity sehingga pod beban kerja dapat membaca dan menulis bobot model.

Memulai

Untuk petunjuk langkah demi langkah menggunakan AWS CLI, lihat. Siapkan klaster Amazon EKS untuk AI/ML beban kerja menggunakan CLI

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

AI/ML pada EKS

Command-line antarmuka (CLI)