View a markdown version of this page

Siapkan klaster Amazon EKS untuk beban AI/ML kerja - Amazon EKS

Bantu tingkatkan halaman ini

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Untuk berkontribusi pada panduan pengguna ini, pilih Edit halaman ini pada GitHub tautan yang terletak di panel kanan setiap halaman.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Siapkan klaster Amazon EKS untuk beban AI/ML kerja

Tip

Daftar untuk AI/ML lokakarya Amazon EKS mendatang.

Bagian ini memandu Anda membuat klaster Amazon EKS yang siap menjalankan beban kerja inferensi, termasuk komputasi dengan GPU, tumpukan pemantauan, dan penyimpanan Amazon S3 untuk bobot model, bersama dengan izin IAM yang diperlukan. AWS

Gambaran umum arsitektur

Pengaturan membuat infrastruktur berikut:

  • Kluster GPU-enabled EKS dengan node — A Karpenter-managed NodePool yang secara dinamis menyediakan instans G-family GPU menggunakan kapasitas Spot dengan fallback. On-Demand

  • Tumpukan pemantauan — Prometheus mengikis metrik cluster, node, dan GPU dan menulisnya dari jarak jauh ke Amazon Managed Service for Prometheus (AMP). Grafana menyediakan dasbor untuk visualisasi. Eksportir NVIDIA DCGM menambahkan GPU-specific metrik termasuk pemanfaatan, memori, suhu, penarikan daya, bandwidth NVLink, dan aktivitas tensor.

  • Timbangan model S3 bucket — Bucket Amazon S3 untuk menyimpan bobot model, dengan asosiasi EKS Pod Identity yang memberikan akses Pod beban kerja. read/write

Opsi komputasi cluster

Panduan ini menyediakan dua jalur untuk menyiapkan cluster Anda. Pilih satu dan ikuti secara konsisten melalui semua langkah.

  • Mode Otomatis EKS - Satu perintah menyediakan kluster EKS dengan Mode Otomatis EKS diaktifkan. Semua komponen yang diperlukan disediakan secara out-of-the-box termasuk Karpenter-based auto-scaling, agen pemantauan node EKS, penarikan kontainer cepat dengan SOCI, dan plugin perangkat NVIDIA.

  • Self-managed Karpenter — Anda menginstal dan mengonfigurasi setiap komponen secara eksplisit: Karpenter viaeksctl, perbaikan node otomatis melalui gerbang fiturnya, agen pemantauan simpul EKS sebagai add-on EKS, dan plugin perangkat NVIDIA melalui Helm. Anda juga membuat kustom EC2NodeClass yang menggunakan AMI EKS-optimized NVIDIA AL2023 dan mengonfigurasi SOCI.

Apa yang akan Anda atur

Langkah Deskripsi

Buat cluster

Menyediakan bidang kontrol EKS dan komponen tingkat cluster yang diperlukan untuk beban kerja GPU.

Buat node GPU yang disediakan secara dinamis

Tentukan GPU dinamis NodePool yang menyediakan instance G-family GPU saat beban kerja dijadwalkan.

Uji dengan pod sampel

Validasi penyiapan end-to-end dengan menjalankan nvidia-smi pod yang memicu Karpenter untuk menyediakan node. GPU-enabled

Tambahkan kapasitas cadangan (opsional)

Lampirkan Reservasi On-Demand Kapasitas (ODCR) ke reservasi pertama Anda NodeClass dengan fallback. Spot/On-Demand

Instal pemantauan

Terapkan kube-prometheus-stack (Prometheus+Grafana) dengan remote-write ke AMP, ditambah NVIDIA DCGM Exporter untuk metrik GPU.

Buat ember bobot model

Buat bucket S3 dan konfigurasikan EKS Pod Identity sehingga pod beban kerja dapat membaca dan menulis bobot model.

Memulai

Untuk petunjuk langkah demi langkah menggunakan AWS CLI, lihat. Siapkan klaster Amazon EKS untuk AI/ML beban kerja menggunakan CLI