Amazon SageMaker HyperPod 版本備註 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 版本備註

下列版本備註會追蹤 Amazon 的最新更新 SageMaker HyperPod。這些版本備註說明自上一版以來所做的新功能、修正和改進。

SageMaker HyperPod 版本備註:2024 年 9 月 10 日

SageMaker HyperPod 會針對 釋出下列項目使用 Amazon 協調 SageMaker HyperPod 叢集 EKS

新功能

SageMaker HyperPod DLAMI Amazon EKS支援

以下是在 中預先安裝或預先設定的 Amazon SageMaker HyperPod DLAMIs EKS支援的套件摘要清單。每個 DLAMIs 都以 Amazon Linux 2 (AL2) 為基礎,並支援特定的 Kubernetes 版本。

AMIs 包括下列項目:

Deep Learning EKS AMI 1.28
  • Amazon EKS Components

    • Kubernetes 版本:1.28.11

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM 驗證器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 核心:5.10.223

  • OSS NVIDIA 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • NVIDIA 容器工具組:1.16.1

  • AWS OFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0

Deep Learning EKS AMI 1.29
  • Amazon EKS Components

    • Kubernetes 版本:1.29.6

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM 驗證器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 核心:5.10.223

  • OSS NVIDIA 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • Nvidia 容器工具組:1.16.1

  • AWS OFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0

Deep Learning EKS AMI 1.30
  • Amazon EKS Components

    • Kubernetes 版本:1.30.2

    • 容器版本:1.7.20

    • Runc 版本:1.1.11

    • AWS IAM 驗證器:0.6.21

  • Amazon SSM Agent:3.3.380

  • Linux 核心:5.10.223

  • OSS NVIDIA 驅動程式:535.183.01

  • NVIDIA CUDA:12.2

  • EFA 安裝程式:1.32.0

  • GDRCopy:2.4

  • NVIDIA 容器工具組:1.16.1

  • AWS OFI NCCL:1.9.1

  • aws-neuronx-tools:2.18.3.0-1

  • aws-neuronx-runtime-lib:2.21.41.0

  • aws-neuronx-oci-hook:2.4.4.0-1

  • aws-neuronx-dkms:2.17.17.0

  • aws-neuronx-collectives:2.21.46.0

SageMaker HyperPod DLAMI 支援 Slurm

HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關 Slurm 最新 HyperPod DLAMI 的詳細資訊。

注意

若要尋找使用最新 更新現有 HyperPod 叢集的指示 HyperPod DLAMI,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

  • 已安裝NVIDIA驅動程式 v550.90.07

  • 已安裝EFA驅動程式 v2.10

  • 已安裝最新版的 AWS Neuron SDK

    • aws-neuronx-collectives:v2.21.46.0

    • aws-neuronx-dkms:v2.17.17.0

    • aws-neuronx-oci-hook:2.4.4.0 版

    • aws-neuronx-runtime-lib:v2.21.41.0

    • aws-neuronx-tools:2.18.3.0 版

SageMaker HyperPod 版本備註:2024 年 8 月 20 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

新功能

  • 增強SageMaker HyperPod 了自動恢復功能 ,擴展了與一般 RESources() 連接之 Slurm 節點的恢復能力GRES。

    一般資源 (GRES) 連接至 Slurm 節點時,Slurm 通常不允許節點配置的變更,例如取代節點,因此不允許繼續失敗的任務。除非明確禁止, HyperPod否則自動恢復功能會自動重新佇列與GRES啟用 的節點相關聯的任何錯誤任務。此程序涉及停止任務、將其放回任務佇列,然後從頭開始重新啟動任務。

其他變更

  • slurmrestd中預先封裝 SageMaker HyperPod AMI。

  • ResumeTimeout和 的預設值UnkillableStepTimeout從 60 秒變更為 300 秒slurm.conf,以改善系統回應能力和任務處理。

  • 針對 NVIDIA Data Center GPU Manager (DCGM) 和 NVIDIA System Management Interface (nvidia-smi) 的運作狀態檢查進行微幅改進。

錯誤修正

  • HyperPod 自動恢復外掛程式可以使用閒置節點繼續任務。

升級步驟

  • 執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。

SageMaker HyperPod 版本備註:2024 年 6 月 20 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

新功能

  • 新增了將額外儲存體連接至 SageMaker HyperPod 叢集執行個體的新功能。透過此功能,您可以在叢集建立或更新程序期間,透過 SageMaker HyperPod 主控台或 CreateClusterUpdateCluster ,在執行個體群組組態層級設定補充儲存APIs。額外的EBS磁碟區會連接至 SageMaker HyperPod 叢集內的每個執行個體,並掛載到 /opt/sagemaker。若要進一步了解如何在 SageMaker HyperPod 叢集中實作,請參閱下列頁面的更新文件。

    請注意,您需要更新 HyperPod 叢集軟體才能使用此功能。修補 HyperPod 叢集軟體後,您可以新增執行個體群組,以將此功能用於 2024 年 6 月 20 日之前建立的現有 SageMaker HyperPod 叢集。此功能對 2024 年 6 月 20 日之後建立的任何 SageMaker HyperPod 叢集完全有效。

升級步驟

  • 執行下列命令以呼叫 UpdateClusterSoftwareAPI,以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。

SageMaker HyperPod 版本備註:2024 年 4 月 24 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

錯誤修正

SageMaker HyperPod 版本備註:2024 年 3 月 27 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

HyperPod 軟體修補程式

HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。

  • 在此版本的 中 HyperPod DLAMI,Slurm 是以REST服務 (slurmestd) 建置,並具有 JSON、 YAML和 JWT支援。

  • 已將 Slurm 升級到 v23.11.3

升級步驟

  • 執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。

改進

  • 自動恢復服務逾時增加至 60 分鐘。

  • 改善執行個體替換程序,使其不會重新啟動 Slurm 控制器。

  • 改善執行生命週期指令碼的錯誤訊息,例如下載錯誤和執行個體啟動時的執行個體運作狀態檢查錯誤。

錯誤修正

  • 修正導致時間同步問題的計時服務錯誤。

  • 已修正剖析 的錯誤slurm.conf

  • 已修正NVIDIAgo-dcgm程式庫的問題。

SageMaker HyperPod 版本備註:2024 年 3 月 14 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

HyperPod DLAMI for Slurm 軟體修補程式

HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。

升級步驟

  • 執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。

改進

SageMaker HyperPod 版本備註:2024 年 2 月 15 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

新功能

  • 新增安全性 SageMaker HyperPod 修補UpdateClusterSoftwareAPI。當安全修補程式可用時,我們建議您執行 來更新帳戶中現有的 SageMaker HyperPod 叢集aws sagemaker update-cluster-software --cluster-name your-cluster-name。若要追蹤未來的安全修補程式,請繼續追蹤此 Amazon SageMaker HyperPod 版本備註頁面。若要了解 UpdateClusterSoftware API 的運作方式,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

SageMaker HyperPod 版本備註:2023 年 11 月 29 日

SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集

新功能

  • SageMaker HyperPod 於 AWS re:Invent 2023 推出 Amazon。

HyperPod 軟體修補程式

HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。

  • 建置於 2023-10-18 發行的AWS 深度學習基礎 GPUAMI(Ubuntu 20.04)

  • 除了 基礎之外,此 HyperPod DLAMI 中預先安裝套件的完整清單 AMI

    • Slurm:v23.02.3

    • Munge:0.5.15 版

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支援叢集運作狀態檢查和自動恢復等功能的 軟體套件