Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon SageMaker HyperPod
SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja pembelajaran mesin (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (LLMs), model difusi, dan model dasar (). FMs Ini mempercepat pengembangan FMs dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Trainium dan A100 dan NVIDIA H100 Graphical Processing Unit (). GPUs Ketika akselerator gagal, fitur ketahanan SageMaker HyperPod monitor instance cluster secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML.
Untuk memulai, periksa, atur Prasyarat untuk menggunakan SageMaker HyperPodAWS Identity and Access Management untuk SageMaker HyperPod, dan pilih salah satu opsi orkestrator berikut yang didukung oleh. SageMaker HyperPod
Dukungan slurm di SageMaker HyperPod
SageMaker HyperPod memberikan dukungan untuk menjalankan beban kerja pembelajaran mesin pada cluster tangguh dengan mengintegrasikan dengan Slurm, manajer beban kerja sumber terbuka. Dukungan slurm di SageMaker HyperPod memungkinkan orkestrasi cluster yang mulus melalui konfigurasi cluster Slurm, memungkinkan Anda untuk mengatur node head, login, dan pekerja pada cluster Integrasi ini juga memfasilitasi penjadwalan pekerjaan berbasis Slurm untuk menjalankan beban kerja ML. di SageMaker HyperPod cluster, serta akses langsung ke node cluster untuk penjadwalan pekerjaan. Dengan HyperPod dukungan konfigurasi siklus hidup, Anda dapat menyesuaikan lingkungan komputasi cluster untuk memenuhi persyaratan spesifik Anda. Selain itu, dengan memanfaatkan perpustakaan pelatihan SageMaker terdistribusi Amazon, Anda dapat mengoptimalkan kinerja cluster pada AWS komputasi dan sumber daya jaringan. Untuk mempelajari selengkapnya, lihat Mengatur cluster dengan Slurm SageMaker HyperPod .
EKSDukungan Amazon di SageMaker HyperPod
SageMaker HyperPod juga terintegrasi dengan Amazon EKS untuk memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh. Hal ini memungkinkan pengguna admin klaster untuk menyediakan HyperPod kluster dan melampirkannya ke bidang EKS kontrol, memungkinkan manajemen kapasitas dinamis, akses langsung ke instance cluster, dan kemampuan ketahanan. Bagi ilmuwan data, EKS dukungan Amazon HyperPod memungkinkan menjalankan beban kerja kontainer untuk melatih model fondasi, inferensi pada EKS klaster, dan memanfaatkan kemampuan resume otomatis pekerjaan untuk pelatihan Kubeflow. PyTorch Arsitekturnya melibatkan pemetaan 1-ke-1 antara EKS cluster (bidang kontrol) dan HyperPod cluster (node pekerja) di dalamVPC, memberikan solusi terintegrasi erat untuk menjalankan beban kerja MS skala besar. Untuk mempelajari selengkapnya, lihat Mengatur cluster dengan Amazon SageMaker HyperPod EKS.
Wilayah AWS didukung oleh SageMaker HyperPod
SageMaker HyperPod tersedia di berikut ini Wilayah AWS.
-
us-east-1
-
us-east-2
-
us-west-2
-
eu-central-1
-
eu-west-1
-
eu-north-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1