Catatan SageMaker HyperPod rilis Amazon - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Catatan SageMaker HyperPod rilis Amazon

Lihat catatan rilis berikut untuk melacak pembaruan terbaru untuk Amazon SageMaker HyperPod.

SageMaker HyperPod catatan rilis: 10 September 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Amazon SageMaker HyperPod EKS.

Fitur baru

SageMaker HyperPod DLAMIuntuk EKS dukungan Amazon

Berikut ini adalah daftar ringkasan paket pra-instal atau pra-konfigurasi dalam dukungan untuk SageMaker HyperPod DLAMIs Amazon. EKS Masing-masing DLAMIs dibangun di Amazon Linux 2 (AL2) dan mendukung versi Kubernetes tertentu.

AMIsIni termasuk yang berikut:

Deep Learning EKS AMI 1.28
  • EKSKomponen Amazon

    • Versi Kubernetes: 1.28.11

    • Versi Containerd: 1.7.20

    • Versi Runc: 1.1.11

    • AWS IAMPengotentikator: 0.6.21

  • SSMAgen Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSPengemudi Nvidia: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAPemasang: 1.32.0

  • GDRCopy: 2.4

  • Toolkit wadah Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.29
  • EKSKomponen Amazon

    • Versi Kubernetes: 1.29.6

    • Versi Containerd: 1.7.20

    • Versi Runc: 1.1.11

    • AWS IAMPengotentikator: 0.6.21

  • SSMAgen Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSPengemudi Nvidia: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAPemasang: 1.32.0

  • GDRCopy: 2.4

  • Toolkit wadah Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

Deep Learning EKS AMI 1.30
  • EKSKomponen Amazon

    • Versi Kubernetes: 1.30.2

    • Versi Containerd: 1.7.20

    • Versi Runc: 1.1.11

    • AWS IAMPengotentikator: 0.6.21

  • SSMAgen Amazon: 3.3.380

  • Kernel Linux: 5.10.223

  • OSSPengemudi Nvidia: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAPemasang: 1.32.0

  • GDRCopy: 2.4

  • Toolkit wadah Nvidia: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2.18.3.0-1

  • aws-neuronx-runtime-lib: 2.21.41.0

  • aws-neuronx-oci-hook: 2.4.4.0-1

  • aws-neuronx-dkms: 2.17.17.0

  • aws-neuronx-collectives: 2.21.46.0

SageMaker HyperPod catatan rilis: 20 Agustus 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

Fitur baru

  • Meningkatkan fungsionalitas SageMaker HyperPod auto-resume, memperluas kemampuan ketahanan untuk node Slurm yang terpasang dengan Generic (). RESources GRES

    Ketika Generic Resources (GRES) dilampirkan ke node Slurm, Slurm biasanya tidak mengizinkan perubahan dalam alokasi node, seperti mengganti node, dan dengan demikian tidak memungkinkan untuk melanjutkan pekerjaan yang gagal. Kecuali dilarang secara eksplisit, fungsionalitas HyperPod auto-resume secara otomatis mengantri ulang pekerjaan yang salah yang terkait dengan node yang diaktifkan. GRES Proses ini melibatkan menghentikan pekerjaan, menempatkannya kembali ke antrian pekerjaan, dan kemudian memulai kembali pekerjaan dari awal.

Perubahan lainnya

  • Pra-paket slurmrestddi. SageMaker HyperPod AMI

  • Mengubah nilai default untuk ResumeTimeout dan UnkillableStepTimeout dari 60 detik menjadi 300 detik slurm.conf untuk meningkatkan respon sistem dan penanganan pekerjaan.

  • Melakukan perbaikan kecil pada pemeriksaan kesehatan untuk GPU Manajer Pusat NVIDIA Data (DCGM) dan Antarmuka Manajemen NVIDIA Sistem (nvidia-smi).

Perbaikan bug

  • Plug-in HyperPod auto-resume dapat menggunakan node idle untuk melanjutkan pekerjaan.

Langkah-langkah upgrade

  • Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

    penting

    Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    catatan

    Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.

SageMaker HyperPod catatan rilis: 20 Juni 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

Fitur baru

  • Menambahkan kemampuan baru untuk melampirkan penyimpanan tambahan ke instance SageMaker HyperPod cluster. Dengan kemampuan ini, Anda dapat mengonfigurasi penyimpanan tambahan pada tingkat konfigurasi grup instans selama proses pembuatan atau pembaruan klaster, baik melalui SageMaker HyperPod konsol atau CreateClusterdan UpdateClusterAPIs. EBSVolume tambahan dilampirkan ke setiap instance dalam SageMaker HyperPod cluster dan dipasang ke/opt/sagemaker. Untuk mempelajari lebih lanjut tentang mengimplementasikannya di SageMaker HyperPod klaster Anda, lihat dokumentasi yang diperbarui pada halaman berikut.

    Perhatikan bahwa Anda perlu memperbarui perangkat lunak HyperPod cluster untuk menggunakan kemampuan ini. Setelah menambal perangkat lunak HyperPod cluster, Anda dapat memanfaatkan kemampuan ini untuk SageMaker HyperPod cluster yang ada yang dibuat sebelum 20 Juni 2024 dengan menambahkan grup instans baru. Kemampuan ini sepenuhnya efektif untuk setiap SageMaker HyperPod cluster yang dibuat setelah 20 Juni 2024.

Langkah-langkah upgrade

  • Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

    penting

    Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    catatan

    Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.

SageMaker HyperPod catatan rilis: 24 April 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

Perbaikan bug

  • Memperbaiki bug dengan ThreadsPerCore parameter di file ClusterInstanceGroupSpecificationAPI. Dengan perbaikan, CreateClusterdan UpdateClusterAPIsdengan benar mengambil dan menerapkan input pengguna melaluiThreadsPerCore. Perbaikan ini efektif pada HyperPod cluster yang dibuat setelah 24 April 2024. Jika Anda memiliki masalah dengan bug ini dan ingin mendapatkan perbaikan ini diterapkan ke cluster Anda, Anda perlu membuat cluster baru. Pastikan Anda mencadangkan dan memulihkan pekerjaan Anda saat pindah ke cluster baru mengikuti instruksi diGunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

SageMaker HyperPod catatan rilis: 27 Maret 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

HyperPod perangkat lunak patch

Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.

Langkah-langkah upgrade

  • Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

    penting

    Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    catatan

    Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.

Perbaikan

  • Peningkatan batas waktu layanan auto-resume menjadi 60 menit.

  • Proses penggantian instance yang ditingkatkan untuk tidak memulai ulang pengontrol Slurm.

  • Pesan kesalahan yang disempurnakan dari menjalankan skrip siklus hidup, seperti kesalahan pengunduhan dan kesalahan pemeriksaan kesehatan instance saat memulai instance.

Perbaikan bug

  • Memperbaiki bug dengan layanan chrony yang menyebabkan masalah dengan sinkronisasi waktu.

  • Memperbaiki bug dengan parsingslurm.conf.

  • Memperbaiki masalah dengan NVIDIAgo-dcgmperpustakaan.

SageMaker HyperPod catatan rilis: 14 Maret 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

HyperPod perangkat lunak patch

Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.

Langkah-langkah upgrade

  • Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPIuntuk memperbarui HyperPod cluster yang ada dengan yang terbaru HyperPod DLAMI. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

    penting

    Cadangkan pekerjaan Anda sebelum menjalankan iniAPI. Proses patching menggantikan volume root dengan yang diperbaruiAMI, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    catatan

    Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.

Perbaikan

SageMaker HyperPod catatan rilis: 15 Februari 2024

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

Fitur baru

  • Menambahkan yang baru UpdateClusterSoftware API untuk patch SageMaker HyperPod keamanan. Ketika patch keamanan tersedia, kami sarankan Anda untuk memperbarui SageMaker HyperPod cluster yang ada di akun Anda dengan menjalankan. aws sagemaker update-cluster-software --cluster-name your-cluster-name Untuk menindaklanjuti patch keamanan masa depan, terus lacak halaman catatan SageMaker HyperPod rilis Amazon ini. Untuk mempelajari cara UpdateClusterSoftware API kerjanya, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

SageMaker HyperPod catatan rilis: 29 November 2023

SageMaker HyperPod merilis yang berikut ini untukMengatur cluster dengan Slurm SageMaker HyperPod .

Fitur baru

  • Meluncurkan Amazon SageMaker HyperPod di AWS RE: Ciptakan 2023.

HyperPod perangkat lunak patch

Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang yang terbaru HyperPod DLAMI.

  • Dibangun di atas AWS Deep Learning Base GPU AMI (Ubuntu 20.04) dirilis pada 2023-10-18

  • Daftar lengkap paket pra-instal HyperPod DLAMI dalam hal ini selain basis AMI

    • Buburan: v23.02.3

    • Uang: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume