Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker Operator AI untuk Kubernetes
SageMaker Operator AI untuk Kubernetes memudahkan pengembang dan ilmuwan data yang menggunakan Kubernetes untuk melatih, menyetel, dan menerapkan model pembelajaran mesin (ML) di AI. SageMaker Anda dapat menginstal Operator SageMaker AI ini di cluster Kubernetes Anda di Amazon Elastic Kubernetes Service (Amazon EKS SageMaker ) untuk membuat pekerjaan AI secara native menggunakan API Kubernetes dan alat Kubernetes baris perintah seperti. kubectl
Panduan ini menunjukkan cara mengatur dan menggunakan operator untuk menjalankan pelatihan model, tuning hyperparameter, atau inferensi (real-time dan batch) pada SageMaker AI dari cluster Kubernetes. Prosedur dan pedoman dalam Bab ini mengasumsikan bahwa Anda sudah familiar dengan Kubernetes dan perintah-perintah dasarnya.
penting
Kami menghentikan pengembangan dan dukungan teknis dari versi asli SageMaker Operator untuk Kubernetes
Jika saat ini Anda menggunakan SageMaker Operator untuk Kubernetes versi v1.2.2
atau di bawah ini, kami sarankan untuk
Untuk informasi tentang langkah-langkah migrasi, lihatMigrasikan sumber daya ke Operator terbaru.
Untuk jawaban atas pertanyaan umum di akhir dukungan versi asli SageMaker Operator untuk Kubernetes, lihat Mengumumkan Akhir Dukungan Versi Asli Operator SageMaker AI untuk Kubernetes
catatan
Tidak ada biaya tambahan untuk menggunakan operator ini. Anda dikenakan biaya untuk sumber daya SageMaker AI apa pun yang Anda gunakan melalui operator ini.
Apa itu operator?
Operator Kubernetes adalah pengontrol aplikasi yang mengelola aplikasi atas nama pengguna Kubernetes. Pengontrol bidang kontrol mencakup berbagai loop kontrol yang mendengarkan manajer negara pusat (ETCD) untuk mengatur keadaan aplikasi yang mereka kendalikan. Contoh aplikasi tersebut termasuk C loud-controller-managerkube-controller-manager
. Operator biasanya menyediakan abstraksi tingkat yang lebih tinggi daripada API Kubernetes mentah, sehingga memudahkan pengguna untuk menerapkan dan mengelola aplikasi. Untuk menambahkan kemampuan baru ke Kubernetes, pengembang dapat memperluas API Kubernetes dengan membuat sumber daya khusus yang berisi logika dan komponen khusus aplikasi atau domain khusus mereka. Operator di Kubernetes memungkinkan pengguna untuk memanggil sumber daya kustom ini secara native dan mengotomatiskan alur kerja terkait.
Bagaimana cara kerja AWS Controllers for Kubernetes (ACK)?
Operator SageMaker AI untuk Kubernetes memungkinkan Anda mengelola pekerjaan di SageMaker AI dari cluster Kubernetes Anda. Versi terbaru dari Operator SageMaker AI untuk Kubernetes didasarkan pada AWS Controllers for Kubernetes (ACK). ACK mencakup runtime pengontrol umum, generator kode, dan satu set pengontrol AWS khusus layanan, salah satunya adalah pengontrol AI. SageMaker
Diagram berikut menggambarkan bagaimana ACK bekerja.

Dalam diagram ini, pengguna Kubernetes ingin menjalankan pelatihan model pada SageMaker AI dari dalam cluster Kubernetes menggunakan API Kubernetes. Pengguna mengeluarkan panggilan kekubectl
apply
, meneruskan file yang menjelaskan sumber daya kustom Kubernetes yang menjelaskan pekerjaan pelatihan. SageMaker kubectl apply
meneruskan file ini, yang disebut manifes, ke server API Kubernetes yang berjalan di node controller Kubernetes (Langkah 1 dalam diagram alur kerja). Server API Kubernetes menerima manifes dengan spesifikasi tugas SageMaker pelatihan dan menentukan apakah pengguna memiliki izin untuk membuat jenis sumber daya kustomsageMaker.services.k8s.aws/TrainingJob
, dan apakah sumber daya kustom diformat dengan benar (Langkah 2). Jika pengguna diotorisasi dan sumber daya kustom valid, server API Kubernetes menulis (Langkah 3) sumber daya kustom ke penyimpanan data etcd-nya dan kemudian merespons kembali (Langkah 4) kepada pengguna bahwa sumber daya kustom telah dibuat. Pengontrol SageMaker AI, yang berjalan pada node pekerja Kubernetes dalam konteks Pod Kubernetes normal, diberi tahu (Langkah 5) bahwa sumber daya kustom baru telah dibuat. sageMaker.services.k8s.aws/TrainingJob
Pengontrol SageMaker AI kemudian berkomunikasi (Langkah 6) dengan SageMaker API, memanggil SageMaker AI CreateTrainingJob
API untuk membuat pekerjaan pelatihan. AWS Setelah berkomunikasi dengan SageMaker API, pengontrol SageMaker AI memanggil server Kubernetes API untuk memperbarui (Langkah 7) status sumber daya kustom dengan informasi yang diterimanya dari AI. SageMaker Oleh karena itu, pengontrol SageMaker AI memberikan informasi yang sama kepada pengembang yang akan mereka terima menggunakan AWS SDK.
Ikhtisar izin
Operator mengakses sumber daya SageMaker AI atas nama Anda. Peran IAM yang diasumsikan operator untuk berinteraksi dengan AWS sumber daya berbeda dari kredensyal yang Anda gunakan untuk mengakses klaster Kubernetes. Peran ini juga berbeda dari peran yang AWS diasumsikan saat menjalankan pekerjaan pembelajaran mesin Anda.
Gambar berikut menjelaskan berbagai lapisan otentikasi.
