Amazon SageMaker HyperPod

Mode fokus

Amazon SageMaker HyperPod - Amazon SageMaker AI

Wilayah AWS didukung oleh SageMaker HyperPod

SageMaker HyperPod membantu Anda menyediakan klaster tangguh untuk menjalankan beban kerja pembelajaran mesin (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (LLMs), model difusi, dan model dasar (). FMs Ini mempercepat pengembangan FMs dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Trainium dan NVIDIA A100 dan H100 Graphical Processing Unit (). GPUs Ketika akselerator gagal, fitur ketahanan SageMaker HyperPod monitor instance cluster secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML.

Untuk memulai, periksa, atur Prasyarat untuk menggunakan SageMaker HyperPod AWS Identity and Access Management untuk SageMaker HyperPod, dan pilih salah satu opsi orkestrator berikut yang didukung oleh. SageMaker HyperPod

Dukungan slurm di SageMaker HyperPod

SageMaker HyperPod memberikan dukungan untuk menjalankan beban kerja pembelajaran mesin pada cluster tangguh dengan mengintegrasikan dengan Slurm, manajer beban kerja sumber terbuka. Dukungan slurm di SageMaker HyperPod memungkinkan orkestrasi cluster yang mulus melalui konfigurasi cluster Slurm, memungkinkan Anda untuk mengatur node head, login, dan pekerja pada cluster Integrasi ini juga memfasilitasi penjadwalan pekerjaan berbasis Slurm untuk menjalankan beban kerja ML. di SageMaker HyperPod cluster, serta akses langsung ke node cluster untuk penjadwalan pekerjaan. Dengan HyperPod dukungan konfigurasi siklus hidup, Anda dapat menyesuaikan lingkungan komputasi cluster untuk memenuhi persyaratan spesifik Anda. Selain itu, dengan memanfaatkan perpustakaan pelatihan terdistribusi Amazon SageMaker AI, Anda dapat mengoptimalkan kinerja cluster pada AWS komputasi dan sumber daya jaringan. Untuk mempelajari selengkapnya, lihat Mengatur cluster dengan Slurm SageMaker HyperPod .

Dukungan Amazon EKS di SageMaker HyperPod

SageMaker HyperPod juga terintegrasi dengan Amazon EKS untuk memungkinkan pelatihan skala besar model pondasi pada cluster komputasi yang berjalan lama dan tangguh. Hal ini memungkinkan pengguna admin klaster untuk menyediakan HyperPod cluster dan melampirkannya ke bidang kontrol EKS, memungkinkan manajemen kapasitas dinamis, akses langsung ke instance cluster, dan kemampuan ketahanan. Untuk ilmuwan data, dukungan Amazon EKS HyperPod memungkinkan menjalankan beban kerja kontainer untuk melatih model pondasi, inferensi pada klaster EKS, dan memanfaatkan kemampuan resume otomatis pekerjaan untuk pelatihan Kubeflow. PyTorch Arsitekturnya melibatkan pemetaan 1-ke-1 antara kluster EKS (bidang kontrol) dan HyperPod cluster (node pekerja) dalam VPC, memberikan solusi terintegrasi erat untuk menjalankan beban kerja ML skala besar. Untuk mempelajari selengkapnya, lihat Mengatur SageMaker HyperPod cluster dengan Amazon EKS.

Wilayah AWS didukung oleh SageMaker HyperPod

SageMaker HyperPod tersedia di berikut ini Wilayah AWS.

us-east-1
us-east-2
us-west-1
us-west-2
eu-central-1
eu-north-1
eu-west-1
eu-west-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-4
ap-northeast-1
sa-east-1

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menyediakan pengguna dengan akses ke gambar kustom

Prasyarat

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Amazon SageMaker HyperPod

Wilayah AWS didukung oleh SageMaker HyperPod

Topik

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?