Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Catatan SageMaker HyperPod rilis Amazon
Catatan rilis berikut melacak pembaruan terbaru untuk Amazon. Catatan SageMaker HyperPod rilis ini menjelaskan fitur baru, perbaikan, dan peningkatan yang dibuat sejak versi sebelumnya.
SageMaker HyperPod catatan rilis: 10 September 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Amazon SageMaker HyperPod EKS.
Fitur baru
-
Menambahkan EKS dukungan Amazon di SageMaker HyperPod. Untuk mempelajari selengkapnya, lihat Mengatur cluster dengan Amazon SageMaker HyperPod EKS.
SageMaker HyperPod DLAMIuntuk EKS dukungan Amazon
Berikut ini adalah daftar ringkasan paket pra-instal atau pra-konfigurasi dalam dukungan untuk SageMaker HyperPod DLAMIs Amazon. EKS Masing-masing DLAMIs dibangun di Amazon Linux 2 (AL2) dan mendukung versi Kubernetes tertentu.
AMIsIni termasuk yang berikut:
SageMaker HyperPod DLAMIuntuk dukungan Slurm
Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI untuk Slurm.
catatan
Untuk menemukan petunjuk tentang memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
-
Menginstal NVIDIA driver v550.90.07
-
Menginstal EFA driver v2.10
-
Menginstal versi terbaru AWS Neuron SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod catatan rilis: 20 Agustus 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
Fitur baru
-
Meningkatkan fungsionalitas SageMaker HyperPod auto-resume, memperluas kemampuan ketahanan untuk node Slurm yang terpasang dengan Generic (). RESources GRES
Ketika Generic Resources (GRES)
dilampirkan ke node Slurm, Slurm biasanya tidak mengizinkan perubahan dalam alokasi node, seperti mengganti node, dan dengan demikian tidak memungkinkan untuk melanjutkan pekerjaan yang gagal. Kecuali dilarang secara eksplisit, fungsionalitas HyperPod auto-resume secara otomatis mengantri ulang pekerjaan yang salah yang terkait dengan node yang diaktifkan. GRES Proses ini melibatkan menghentikan pekerjaan, menempatkannya kembali ke antrian pekerjaan, dan kemudian memulai kembali pekerjaan dari awal.
Perubahan lainnya
-
Pra-paket
slurmrestd
di. SageMaker HyperPod AMI -
Mengubah nilai default untuk
ResumeTimeout
danUnkillableStepTimeout
dari 60 detik menjadi 300 detikslurm.conf
untuk meningkatkan respon sistem dan penanganan pekerjaan. -
Melakukan perbaikan kecil pada pemeriksaan kesehatan untuk GPU Manajer Pusat NVIDIA Data (DCGM) dan Antarmuka Manajemen NVIDIA Sistem (nvidia-smi).
Perbaikan bug
-
Plug-in HyperPod auto-resume dapat menggunakan node idle untuk melanjutkan pekerjaan.
Langkah-langkah upgrade
-
Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
penting
Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instance ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
catatan
Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.
SageMaker HyperPod catatan rilis: 20 Juni 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
Fitur baru
-
Menambahkan kemampuan baru untuk melampirkan penyimpanan tambahan ke instance SageMaker HyperPod cluster. Dengan kemampuan ini, Anda dapat mengonfigurasi penyimpanan tambahan pada tingkat konfigurasi grup instans selama proses pembuatan atau pembaruan klaster, baik melalui SageMaker HyperPod konsol atau
CreateCluster
danUpdateCluster
APIs. EBSVolume tambahan dilampirkan ke setiap instance dalam SageMaker HyperPod cluster dan dipasang ke/opt/sagemaker
. Untuk mempelajari lebih lanjut tentang mengimplementasikannya di SageMaker HyperPod klaster Anda, lihat dokumentasi yang diperbarui pada halaman berikut.Perhatikan bahwa Anda perlu memperbarui perangkat lunak HyperPod cluster untuk menggunakan kemampuan ini. Setelah menambal perangkat lunak HyperPod cluster, Anda dapat memanfaatkan kemampuan ini untuk SageMaker HyperPod cluster yang ada yang dibuat sebelum 20 Juni 2024 dengan menambahkan grup instans baru. Kemampuan ini sepenuhnya efektif untuk setiap SageMaker HyperPod cluster yang dibuat setelah 20 Juni 2024.
Langkah-langkah upgrade
-
Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
penting
Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instance ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
catatan
Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.
SageMaker HyperPod catatan rilis: 24 April 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
Perbaikan bug
-
Memperbaiki bug dengan
ThreadsPerCore
parameter di fileClusterInstanceGroupSpecification
API. Dengan perbaikan,CreateCluster
danUpdateCluster
APIsdengan benar mengambil dan menerapkan input pengguna melaluiThreadsPerCore
. Perbaikan ini efektif pada HyperPod cluster yang dibuat setelah 24 April 2024. Jika Anda memiliki masalah dengan bug ini dan ingin perbaikan ini diterapkan ke cluster Anda, Anda perlu membuat cluster baru. Pastikan Anda mencadangkan dan memulihkan pekerjaan Anda saat pindah ke cluster baru mengikuti instruksi diGunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
SageMaker HyperPod catatan rilis: 27 Maret 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
HyperPod perangkat lunak patch
Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.
-
Dalam rilis ini HyperPod DLAMI, Slurm dibangun dengan REST service (
slurmestd
) denganJSON,YAML, dan JWT dukungan.
Langkah-langkah upgrade
-
Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
penting
Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instance ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
catatan
Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.
Perbaikan
-
Peningkatan batas waktu layanan auto-resume menjadi 60 menit.
-
Proses penggantian instance yang ditingkatkan untuk tidak memulai ulang pengontrol Slurm.
-
Pesan kesalahan yang disempurnakan dari menjalankan skrip siklus hidup, seperti kesalahan pengunduhan dan kesalahan pemeriksaan kesehatan instance saat memulai instance.
Perbaikan bug
-
Memperbaiki bug dengan layanan chrony yang menyebabkan masalah dengan sinkronisasi waktu.
-
Memperbaiki bug dengan parsing
slurm.conf
. -
Memperbaiki masalah dengan NVIDIA
go-dcgm
perpustakaan.
SageMaker HyperPod catatan rilis: 14 Maret 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
HyperPod DLAMIuntuk patch perangkat lunak Slurm
Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.
-
Ditambahkan O penPMIx
v4.2.6 untuk mengaktifkan Slurm dengan. PMIx -
Dibangun di atas AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
dirilis pada 2023-10-26 -
Daftar lengkap paket pra-instal HyperPod DLAMI dalam hal ini selain basis AMI
-
O penPMIx
: v4.2.6 -
Uang: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume
Langkah-langkah upgrade
-
Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
penting
Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instance ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
catatan
Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.
Perbaikan
-
HyperPod sekarang benar mendukung melewati nama partisi yang disediakan melalui
provisioning_params.json
dan membuat partisi tepat berdasarkan input yang disediakan. Untuk informasi lebih lanjut tentangprovisioning_params.json
, lihat SageMaker HyperPod bentuk danKustomisasi SageMaker HyperPod cluster menggunakan skrip siklus hidup.
SageMaker HyperPod catatan rilis: 15 Februari 2024
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
Fitur baru
-
Menambahkan yang baru
UpdateClusterSoftware
API untuk patch SageMaker HyperPod keamanan. Ketika patch keamanan tersedia, kami sarankan Anda untuk memperbarui SageMaker HyperPod cluster yang ada di akun Anda dengan menjalankan.aws sagemaker update-cluster-software --cluster-name
Untuk menindaklanjuti patch keamanan masa depan, terus lacak halaman catatan SageMaker HyperPod rilis Amazon ini. Untuk mempelajari carayour-cluster-name
UpdateClusterSoftware
API kerjanya, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
SageMaker HyperPod catatan rilis: 29 November 2023
SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .
Fitur baru
-
Meluncurkan Amazon SageMaker HyperPod di AWS re:Invent 2023.
HyperPod perangkat lunak patch
Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.
-
Dibangun di atas AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
dirilis pada 2023-10-18 -
Daftar lengkap paket pra-instal HyperPod DLAMI dalam hal ini selain basis AMI
-
Uang: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume