Mengatur cluster dengan Slurm SageMaker HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur cluster dengan Slurm SageMaker HyperPod

Dukungan slurm SageMaker HyperPod membantu Anda menyediakan cluster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (), model difusi, dan model dasar (LLMs). FMs Ini mempercepat pengembangan FMs dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Unit Pemrosesan Grafis Trainium dan NVIDIA A100 dan H100 (). GPUs Ketika akselerator gagal, fitur ketahanan SageMaker HyperPod monitor instance cluster secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML. Selain itu, dengan dukungan konfigurasi siklus hidup SageMaker HyperPod, Anda dapat menyesuaikan lingkungan komputasi agar sesuai dengan kebutuhan Anda dan mengonfigurasinya dengan pustaka pelatihan SageMaker terdistribusi Amazon untuk mencapai kinerja optimal AWS.

Cluster operasi

Anda dapat membuat, mengonfigurasi, dan memelihara SageMaker HyperPod kluster secara grafis melalui antarmuka pengguna konsol (UI) dan secara terprogram melalui AWS antarmuka baris perintah (CLI) atau AWS SDK for Python (Boto3). Dengan AmazonVPC, Anda dapat mengamankan jaringan cluster dan juga memanfaatkan konfigurasi cluster Anda dengan sumber daya di AndaVPC, seperti Amazon FSx for Lustre, yang menawarkan throughput tercepat. Anda juga dapat memberikan IAM peran yang berbeda ke grup instans klaster, dan membatasi tindakan yang dapat dioperasikan oleh sumber daya klaster dan pengguna Anda. Untuk mempelajari selengkapnya, lihat Mengelola SageMaker HyperPod cluster yang disusun oleh Slurm.

Mengkonfigurasi lingkungan ML Anda

SageMaker HyperPod berjalanSageMaker HyperPod DLAMI, yang mengatur lingkungan MLpada HyperPod cluster. Anda dapat mengonfigurasi penyesuaian tambahan DLAMI dengan menyediakan skrip siklus hidup untuk mendukung kasus penggunaan Anda. Untuk mempelajari lebih lanjut tentang cara mengatur skrip siklus hidup, lihat dan. Memulai dengan mengatur menggunakan SageMaker HyperPod Slurm SageMaker HyperPod praktik terbaik konfigurasi siklus hidup

Penjadwalan pekerjaan

Setelah Anda berhasil membuat HyperPod cluster, pengguna cluster dapat masuk ke node cluster (seperti node head atau controller, log-in node, dan worker node) dan menjadwalkan pekerjaan untuk menjalankan beban kerja machine learning. Untuk mempelajari selengkapnya, lihat Jalankan pekerjaan di SageMaker HyperPod cluster.

Ketahanan terhadap kegagalan perangkat keras

SageMaker HyperPod menjalankan pemeriksaan kesehatan pada node cluster dan menyediakan fungsionalitas auto-resume beban kerja. Dengan fitur ketahanan klaster HyperPod, Anda dapat melanjutkan beban kerja dari pos pemeriksaan terakhir yang Anda simpan, setelah node yang salah diganti dengan node yang sehat di cluster dengan lebih dari 16 node. Untuk mempelajari selengkapnya, lihat SageMaker HyperPod ketahanan klaster.

Pencatatan dan pengelolaan cluster

Anda dapat menemukan metrik pemanfaatan SageMaker HyperPod sumber daya dan log siklus hidup di Amazon CloudWatch, dan mengelola SageMaker HyperPod sumber daya dengan menandainya. Setiap CreateCluster API proses membuat aliran log yang berbeda, dinamai dalam <cluster-name>-<timestamp> format. Di aliran log, Anda dapat memeriksa nama host, nama skrip siklus hidup yang gagal, dan output dari skrip yang gagal seperti dan. stdout stderr Untuk informasi selengkapnya, lihat SageMaker HyperPod manajemen klaster.

Kompatibel dengan SageMaker alat

Menggunakan SageMaker HyperPod, Anda dapat mengkonfigurasi cluster dengan AWS perpustakaan komunikasi kolektif yang dioptimalkan yang ditawarkan oleh SageMaker, seperti perpustakaan paralelisme data SageMaker terdistribusi () SMDDP. SMDDPPustaka mengimplementasikan AllGather operasi yang dioptimalkan ke AWS komputasi dan infrastruktur jaringan untuk instans pembelajaran SageMaker mesin berkinerja terbaik yang didukung oleh A100. NVIDIA GPUs Untuk mempelajari informasi lebih lanjut, lihat Jalankan beban kerja pelatihan terdistribusi dengan Slurm on HyperPod.