Mengatur cluster dengan Amazon SageMaker HyperPod EKS - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur cluster dengan Amazon SageMaker HyperPod EKS

SageMaker HyperPod adalah layanan yang SageMaker dikelola yang memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh, berintegrasi dengan Amazon EKS untuk mengatur sumber daya komputasi. HyperPod Anda dapat menjalankan pekerjaan pelatihan tanpa gangguan selama berminggu-minggu atau berbulan-bulan menggunakan EKS kluster Amazon dengan fitur HyperPod ketahanan yang memeriksa berbagai kegagalan perangkat keras dan secara otomatis memulihkan node yang salah.

Fitur utama untuk pengguna admin cluster termasuk yang berikut ini.

Untuk pengguna ilmuwan data, EKS dukungan dalam HyperPod mengaktifkan yang berikut ini.

  • Menjalankan beban kerja kontainer untuk melatih model pondasi di cluster HyperPod

  • Menjalankan inferensi pada EKS cluster, memanfaatkan integrasi antara dan HyperPod EKS

  • Memanfaatkan kemampuan auto-resume pekerjaan untuk pelatihan Kubeflow PyTorch () PyTorchJob

Arsitektur tingkat tinggi EKS dukungan Amazon HyperPod melibatkan pemetaan 1-ke-1 antara EKS cluster (bidang kontrol) dan HyperPod cluster (node pekerja) dalam aVPC, seperti yang ditunjukkan pada diagram berikut.

EKS and HyperPod VPC architecture with control plane, klaster nodes, and Layanan AWS.