Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengatur cluster dengan Amazon SageMaker HyperPod EKS
SageMaker HyperPod adalah layanan yang SageMaker dikelola yang memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh, berintegrasi dengan Amazon EKS untuk mengatur sumber daya komputasi. HyperPod Anda dapat menjalankan pekerjaan pelatihan tanpa gangguan selama berminggu-minggu atau berbulan-bulan menggunakan EKS kluster Amazon dengan fitur HyperPod ketahanan yang memeriksa berbagai kegagalan perangkat keras dan secara otomatis memulihkan node yang salah.
Fitur utama untuk pengguna admin cluster termasuk yang berikut ini.
-
Menyediakan HyperPod cluster yang tangguh dan menempelkannya ke bidang kontrol EKS
-
Mengaktifkan manajemen kapasitas dinamis, seperti menambahkan lebih banyak node, memperbarui perangkat lunak, dan menghapus cluster
-
Mengaktifkan akses ke instance cluster secara langsung melalui
kubectl
atau/SSMSSH -
Menawarkan kemampuan ketahanan, termasuk pemeriksaan kesehatan dasar, pemeriksaan kesehatan mendalam, agen pemantauan kesehatan, dan dukungan untuk resume otomatis pekerjaan PyTorch
-
Mengintegrasikan dengan alat observabilitas seperti Amazon CloudWatchContainer Insights, Amazon Managed Service for Prometheus, dan Amazon Managed Grafana
Untuk pengguna ilmuwan data, EKS dukungan dalam HyperPod mengaktifkan yang berikut ini.
-
Menjalankan beban kerja kontainer untuk melatih model pondasi di cluster HyperPod
-
Menjalankan inferensi pada EKS cluster, memanfaatkan integrasi antara dan HyperPod EKS
-
Memanfaatkan kemampuan auto-resume pekerjaan untuk pelatihan Kubeflow PyTorch
() PyTorchJob
Arsitektur tingkat tinggi EKS dukungan Amazon HyperPod melibatkan pemetaan 1-ke-1 antara EKS cluster (bidang kontrol) dan HyperPod cluster (node pekerja) dalam aVPC, seperti yang ditunjukkan pada diagram berikut.