Mengapa menggunakan Amazon EKS untuk inferensi Glosarium Cara kerja inferensi di Amazon EKS Metrik kinerja inferensi Mengurangi waktu mulai dingin Apa yang akan Anda terapkan

Jalankan beban kerja AI/ML inferensi di Amazon EKS

Tip

Daftar untuk AI/ML lokakarya Amazon EKS mendatang.

Inferensi adalah proses menjalankan model AI terlatih untuk menghasilkan prediksi atau output dari data input. Ini termasuk melayani model bahasa besar (LLM) yang menghasilkan teks atau kode, model difusi yang menghasilkan gambar, model ucapan untuk sintesis dan transkripsi suara, dan model video untuk analisis atau pembuatan waktu nyata. Amazon EKS menyediakan solusi portabel yang dapat diskalakan untuk menerapkan beban kerja inferensi ini dengan GPU NVIDIA atau akselerator AWS Trainium, penskalaan dinamis, dan integrasi dengan Kubernetes yang lebih luas serta lanskap alat dan layanan. AWS

Mengapa menggunakan Amazon EKS untuk inferensi

Amazon EKS menggabungkan orkestrasi Kubernetes dengan AWS infrastruktur untuk mengatasi tantangan utama dalam menjalankan inferensi dalam skala besar:

Penskalaan GPU Dinamis — Karpenter menyediakan instans GPU berukuran tepat sesuai permintaan berdasarkan permintaan sumber daya Pod, penskalaan dari nol saat idle dan menambah kapasitas saat lalu lintas meningkat. Ini menghindari penyediaan sumber daya GPU yang mahal secara berlebihan.
Fast cold start — SOCI (Seekable OCI) parallel pull download dan unpack layer image container besar secara bersamaan, mengurangi waktu tarik gambar dari menit ke detik. Dikombinasikan dengan model streaming dari Amazon S3 langsung ke memori GPU, Pod dapat mulai melayani dalam waktu kurang dari dua menit.
Pemulihan kegagalan GPU otomatis - Agen pemantauan simpul EKS mendeteksi kegagalan perangkat keras GPU dan memicu penggantian node otomatis, meminimalkan waktu henti tanpa intervensi manual.
Optimalisasi biaya — Instans spot dengan On-Demand fallback, pemilihan instans berukuran tepat, dan perilaku scale-to-zero mengurangi biaya GPU. Kapasitas cadangan (ODCR) memberikan penghematan tambahan untuk beban kerja kondisi mapan.
Standar terbuka dan portabilitas - Beban kerja inferensi dijalankan pada API Kubernetes standar (Deployments, Services, HPA) dengan server model open source seperti VLLm atau SGlang, menyediakan portabilitas di seluruh lingkungan.
Pemantauan terintegrasi — Metrik Prometheus dari VllM atau SGLang dan Eksportir NVIDIA DCGM memberikan visibilitas ke latensi permintaan, throughput token, pemanfaatan GPU, dan penggunaan memori melalui dasbor Grafana.

Glosarium

Istilah-istilah berikut digunakan di seluruh bagian ini:

Inferensi — Proses menjalankan model terlatih untuk menghasilkan output (teks, embeddings, klasifikasi) dari data input.
Server model — Layanan kontainer yang memuat model ke dalam memori, menerima permintaan inferensi, dan mengembalikan prediksi. Contohnya termasuk VllM, SGlang, Triton Inference Server, dan Text Generation Inference (TGI).
Bobot model — Parameter yang dipelajari dari model terlatih, disimpan sebagai file (biasanya dalam format SafeTensors atau GGUF) yang dimuat server model ke dalam memori GPU.
Accelerator — Perangkat keras khusus seperti GPU atau AWS Trainium/Inferentia chip NVIDIA yang mempercepat operasi matriks yang diperlukan untuk inferensi.
Paralelisme tensor — Memisahkan model di beberapa GPU pada node yang sama untuk melayani model yang melebihi memori satu GPU.
Cache KV — Buffer memori yang menyimpan pasangan nilai kunci yang dihitung sebelumnya selama pembuatan teks, menghindari perhitungan berlebihan untuk setiap token baru.

Cara kerja inferensi di Amazon EKS

Pada tingkat tinggi, menerapkan beban kerja inferensi di Amazon EKS melibatkan langkah-langkah berikut:

Langkah	Deskripsi
Siapkan cluster	Buat cluster EKS dengan GPU-enabled node, pemantauan, dan penyimpanan. Lihat Pengaturan cluster di dokumen AI/ML ON EKS.
Bobot model toko	Unduh bobot model dari registri model (seperti Hugging Face) dan simpan di Amazon S3 untuk pemuatan model cepat selama acara cold-start atau peningkatan skala.
Menyebarkan server model	Buat Deployment Kubernetes yang menjalankan server model (seperti VllM) pada node GPU. Server model mengalirkan bobot dari S3 ke memori GPU dan mengekspos API. OpenAI-compatible
Paparkan titik akhir inferensi	Buat Layanan Kubernetes untuk menyediakan endpoint jaringan yang stabil. Gunakan port-forwarding untuk pengujian atau penyeimbang beban seperti AWS Application Load Balancer (ALB) untuk lalu lintas produksi.
Monitor dan skala	Gunakan metrik Prometheus (tingkat permintaan, throughput token, latensi, pemanfaatan cache KV) untuk memantau kinerja dan mengonfigurasi penskalaan otomatis.

Metrik kinerja inferensi

Memahami kinerja inferensi membutuhkan metrik pelacakan di seluruh latensi dan throughput:

Metrik latensi

Time to First Token (TTFT) — Waktu dari kedatangan permintaan hingga token pertama yang dihasilkan. Penting untuk aplikasi interaktif.
Time Per Output Token (TPOT) — Rata-rata waktu untuk menghasilkan setiap token berikutnya setelah yang pertama.
End-to-end latensi permintaan - Total waktu dari pengajuan permintaan hingga penyelesaian respons penuh.

Metrik throughput

Permintaan per detik — Total permintaan inferensi yang disajikan per detik di semua replika.
Token keluaran per detik — Tingkat pembuatan token, diukur sebagai total token keluaran dibagi dengan waktu yang telah berlalu.
Pemanfaatan GPU — Persentase siklus komputasi GPU yang secara aktif digunakan untuk inferensi.
Pemanfaatan cache KV — Persentase memori cache KV yang dialokasikan yang digunakan, menunjukkan seberapa dekat server dengan kapasitas.

Mengurangi waktu mulai dingin

Kontainer inferensi besar (8-15 GB) dan bobot model (10-100+ GB) dapat menyebabkan startup Pod lambat. Teknik-teknik berikut meminimalkan penundaan start dingin:

SOCI parallel pull - Mengunduh dan membongkar lapisan gambar kontainer secara bersamaan, bukan secara berurutan. Diaktifkan secara default pada Mode Otomatis EKS untuk instans GPU.
Streaming model dari S3 - Alat seperti Run:ai model streaming Model Streamer bobot langsung dari Amazon S3 ke memori GPU, melewati disk lokal dan mengurangi waktu muat dari menit ke detik.
Menyimpan gambar di Amazon ECR — Menarik dari repositori ECR regional melalui titik akhir VPC menghindari latensi internet untuk gambar kontainer besar.
Caching penyimpanan instance - G-family instance dengan disk NVMe lokal dapat menyimpan lapisan kontainer dan artefak model, mempercepat penarikan berikutnya pada node yang sama.

Apa yang akan Anda terapkan

Panduan Load & Serve Model memandu Anda melalui penerapan aplikasi inferensi ujung ke ujung:

Unduh bobot model — A Kubernetes Job mengunduh model Ministral-3-8B-Instruct dari Hugging Face dan mengunggahnya ke bucket S3 Anda.
Deploy Vllm - Deployment menjalankan VllM dengan Run:ai Model Streamer untuk mengalirkan bobot dari S3 langsung ke memori GPU, melayani API. OpenAI-compatible
Monitor dengan Grafana — Sebuah ServiceMonitor kabel metrik VllM Prometheus ke dalam tumpukan pemantauan untuk dasbor real-time.
Menyebarkan frontend obrolan - Open WebUI menyediakan antarmuka obrolan berbasis browser yang terhubung ke titik akhir VLLM.

Panduan ini menggunakan infrastruktur cluster dari Siapkan klaster Amazon EKS untuk beban AI/ML kerja bagian tersebut dan bekerja dengan Mode Otomatis EKS dan jalur Karpenter yang dikelola sendiri.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Command-line antarmuka (CLI)

Model Muat & Sajikan