Mengatur cluster dengan Slurm SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur cluster dengan Slurm SageMaker HyperPod

Dukungan slurm SageMaker HyperPod membantu Anda menyediakan cluster tangguh untuk menjalankan beban kerja machine learning (ML) dan mengembangkan state-of-the-art model seperti model bahasa besar (), model difusi, dan model dasar (LLMs). FMs Ini mempercepat pengembangan FMs dengan menghilangkan angkat berat yang tidak berdiferensiasi yang terlibat dalam membangun dan memelihara cluster komputasi skala besar yang ditenagai oleh ribuan akselerator seperti AWS Trainium dan A100 dan NVIDIA H100 Graphical Processing Unit (). GPUs Ketika akselerator gagal, fitur ketahanan SageMaker HyperPod monitor instance cluster secara otomatis mendeteksi dan mengganti perangkat keras yang rusak dengan cepat sehingga Anda dapat fokus menjalankan beban kerja ML. Selain itu, dengan dukungan konfigurasi siklus hidup SageMaker HyperPod, Anda dapat menyesuaikan lingkungan komputasi agar sesuai dengan kebutuhan Anda dan mengonfigurasinya dengan pustaka pelatihan terdistribusi Amazon SageMaker AI untuk mencapai kinerja optimal. AWS

Cluster operasi

Anda dapat membuat, mengonfigurasi, dan memelihara SageMaker HyperPod kluster secara grafis melalui antarmuka pengguna konsol (UI) dan secara terprogram melalui antarmuka AWS baris perintah () atau. CLI AWS SDK for Python (Boto3) Dengan AmazonVPC, Anda dapat mengamankan jaringan cluster dan juga memanfaatkan konfigurasi cluster Anda dengan sumber daya di AndaVPC, seperti Amazon FSx for Lustre, yang menawarkan throughput tercepat. Anda juga dapat memberikan IAM peran yang berbeda ke grup instans klaster, dan membatasi tindakan yang dapat dioperasikan oleh sumber daya klaster dan pengguna Anda. Untuk mempelajari selengkapnya, lihat SageMaker HyperPod operasi.

Mengonfigurasi lingkungan ML Anda

SageMaker HyperPod berjalanSageMaker HyperPod DLAMI, yang mengatur lingkungan ML pada HyperPod cluster. Anda dapat mengonfigurasi penyesuaian tambahan DLAMI dengan menyediakan skrip siklus hidup untuk mendukung kasus penggunaan Anda. Untuk mempelajari lebih lanjut tentang cara mengatur skrip siklus hidup, lihat dan. Tutorial untuk memulai SageMaker HyperPod Kustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup

Penjadwalan pekerjaan

Setelah Anda berhasil membuat HyperPod cluster, pengguna cluster dapat masuk ke node cluster (seperti node head atau controller, log-in node, dan worker node) dan menjadwalkan pekerjaan untuk menjalankan beban kerja machine learning. Untuk mempelajari selengkapnya, lihat Pekerjaan di SageMaker HyperPod cluster.

Ketahanan terhadap kegagalan perangkat keras

SageMaker HyperPod menjalankan pemeriksaan kesehatan pada node cluster dan menyediakan fungsionalitas auto-resume beban kerja. Dengan fitur ketahanan klaster HyperPod, Anda dapat melanjutkan beban kerja dari pos pemeriksaan terakhir yang Anda simpan, setelah node yang salah diganti dengan node yang sehat di cluster dengan lebih dari 16 node. Untuk mempelajari selengkapnya, lihat SageMaker HyperPod ketahanan klaster.

Pencatatan dan pengelolaan klaster

Anda dapat menemukan metrik pemanfaatan SageMaker HyperPod sumber daya dan log siklus hidup di Amazon CloudWatch, dan mengelola SageMaker HyperPod sumber daya dengan menandainya. Setiap CreateCluster API proses membuat aliran log yang berbeda, dinamai dalam <cluster-name>-<timestamp> format. Di aliran log, Anda dapat memeriksa nama host, nama skrip siklus hidup yang gagal, dan output dari skrip yang gagal seperti dan. stdout stderr Untuk informasi selengkapnya, lihat SageMaker HyperPod manajemen klaster.

Kompatibel dengan alat SageMaker AI

Dengan menggunakan SageMaker HyperPod, Anda dapat mengonfigurasi cluster dengan pustaka komunikasi kolektif yang AWS dioptimalkan yang ditawarkan oleh SageMaker AI, seperti perpustakaan paralelisme data terdistribusi SageMaker AI (). SMDDP SMDDPPustaka mengimplementasikan AllGather operasi yang dioptimalkan ke AWS komputasi dan infrastruktur jaringan untuk instans pembelajaran mesin SageMaker AI berkinerja terbaik yang didukung oleh A100. NVIDIA GPUs Untuk mempelajari informasi lebih lanjut, lihat Jalankan beban kerja pelatihan terdistribusi dengan Slurm on HyperPod.