本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 版本備註
下列版本備註會追蹤 Amazon 的最新更新 SageMaker HyperPod。這些版本備註說明自上一版以來所做的新功能、修正和改進。
SageMaker HyperPod 版本備註:2024 年 9 月 10 日
SageMaker HyperPod 會針對 釋出下列項目使用 Amazon 協調 SageMaker HyperPod 叢集 EKS。
新功能
-
在 中新增了 Amazon EKS支援 SageMaker HyperPod。如需進一步了解,請參閱 使用 Amazon 協調 SageMaker HyperPod 叢集 EKS。
SageMaker HyperPod DLAMI Amazon EKS支援
以下是在 中預先安裝或預先設定的 Amazon SageMaker HyperPod DLAMIs EKS支援的套件摘要清單。每個 DLAMIs 都以 Amazon Linux 2 (AL2) 為基礎,並支援特定的 Kubernetes 版本。
AMIs 包括下列項目:
SageMaker HyperPod DLAMI 支援 Slurm
HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關 Slurm 最新 HyperPod DLAMI 的詳細資訊。
注意
若要尋找使用最新 更新現有 HyperPod 叢集的指示 HyperPod DLAMI,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
-
已安裝NVIDIA驅動程式 v550.90.07
-
已安裝EFA驅動程式 v2.10
-
已安裝最新版的 AWS Neuron SDK
-
aws-neuronx-collectives:v2.21.46.0
-
aws-neuronx-dkms:v2.17.17.0
-
aws-neuronx-oci-hook:2.4.4.0 版
-
aws-neuronx-runtime-lib:v2.21.41.0
-
aws-neuronx-tools:2.18.3.0 版
-
SageMaker HyperPod 版本備註:2024 年 8 月 20 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
新功能
-
增強SageMaker HyperPod 了自動恢復功能 ,擴展了與一般 RESources() 連接之 Slurm 節點的恢復能力GRES。
當一般資源 (GRES)
連接至 Slurm 節點時,Slurm 通常不允許節點配置的變更,例如取代節點,因此不允許繼續失敗的任務。除非明確禁止, HyperPod否則自動恢復功能會自動重新佇列與GRES啟用 的節點相關聯的任何錯誤任務。此程序涉及停止任務、將其放回任務佇列,然後從頭開始重新啟動任務。
其他變更
-
在
slurmrestd
中預先封裝 SageMaker HyperPod AMI。 -
將
ResumeTimeout
和 的預設值UnkillableStepTimeout
從 60 秒變更為 300 秒slurm.conf
,以改善系統回應能力和任務處理。 -
針對 NVIDIA Data Center GPU Manager (DCGM) 和 NVIDIA System Management Interface (nvidia-smi) 的運作狀態檢查進行微幅改進。
錯誤修正
-
HyperPod 自動恢復外掛程式可以使用閒置節點繼續任務。
升級步驟
-
執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。
SageMaker HyperPod 版本備註:2024 年 6 月 20 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
新功能
-
新增了將額外儲存體連接至 SageMaker HyperPod 叢集執行個體的新功能。透過此功能,您可以在叢集建立或更新程序期間,透過 SageMaker HyperPod 主控台或
CreateCluster
和UpdateCluster
,在執行個體群組組態層級設定補充儲存APIs。額外的EBS磁碟區會連接至 SageMaker HyperPod 叢集內的每個執行個體,並掛載到/opt/sagemaker
。若要進一步了解如何在 SageMaker HyperPod 叢集中實作,請參閱下列頁面的更新文件。請注意,您需要更新 HyperPod 叢集軟體才能使用此功能。修補 HyperPod 叢集軟體後,您可以新增執行個體群組,以將此功能用於 2024 年 6 月 20 日之前建立的現有 SageMaker HyperPod 叢集。此功能對 2024 年 6 月 20 日之後建立的任何 SageMaker HyperPod 叢集完全有效。
升級步驟
-
執行下列命令以呼叫 UpdateClusterSoftwareAPI,以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。
SageMaker HyperPod 版本備註:2024 年 4 月 24 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
錯誤修正
-
已修正
ClusterInstanceGroupSpecification
中ThreadsPerCore
參數的錯誤API。透過 修正,CreateCluster
和 會透過UpdateCluster
APIs正確取得並套用使用者輸入ThreadsPerCore
。此修正對 2024 年 4 月 24 日之後建立的 HyperPod 叢集有效。如果您遇到此錯誤的問題,並想要將此修正套用至叢集,則需要建立新的叢集。請確定您在移至新叢集時,依照 的指示備份和還原工作使用 提供的備份指令碼 SageMaker HyperPod。
SageMaker HyperPod 版本備註:2024 年 3 月 27 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
HyperPod 軟體修補程式
HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。
-
在此版本的 中 HyperPod DLAMI,Slurm 是以REST服務 (
slurmestd
) 建置,並具有 JSON、 YAML和 JWT支援。 -
已將 Slurm
升級到 v23.11.3
升級步驟
-
執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。
改進
-
自動恢復服務逾時增加至 60 分鐘。
-
改善執行個體替換程序,使其不會重新啟動 Slurm 控制器。
-
改善執行生命週期指令碼的錯誤訊息,例如下載錯誤和執行個體啟動時的執行個體運作狀態檢查錯誤。
錯誤修正
-
修正導致時間同步問題的計時服務錯誤。
-
已修正剖析 的錯誤
slurm.conf
。 -
已修正NVIDIA
go-dcgm
程式庫的問題。
SageMaker HyperPod 版本備註:2024 年 3 月 14 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
HyperPod DLAMI for Slurm 軟體修補程式
HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。
-
升級 Slurm
至 v23.11.1 -
已新增 OpenPMIx
v4.2.6 以使用 啟用 SlurmPMIx 。 -
建置於 2023-10-26 發行的AWS 深度學習基礎 GPUAMI(Ubuntu 20.04)
-
除了 基礎之外,此 HyperPod DLAMI 中預先安裝套件的完整清單 AMI
升級步驟
-
執行下列命令,呼叫 UpdateClusterSoftwareAPI以使用最新的 更新現有的 HyperPod叢集 HyperPod DLAMI。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 之前,請先備份您的工作API。修補程序會以更新的 取代根磁碟區AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請務必將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 提供的備份指令碼 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
注意
請注意,您應該執行 AWS CLI 命令來更新 HyperPod 叢集。透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體目前無法使用。
改進
-
HyperPod 現在正確支援透過 提供的傳遞分割區名稱,
provisioning_params.json
並根據提供的輸入適當地建立分割區。如需provisioning_params.json
的詳細資訊,請參閱 SageMaker HyperPod 形式 和 使用生命週期指令碼自訂 SageMaker HyperPod叢集。
SageMaker HyperPod 版本備註:2024 年 2 月 15 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
新功能
-
新增安全性 SageMaker HyperPod 修補
UpdateClusterSoftware
API。當安全修補程式可用時,我們建議您執行 來更新帳戶中現有的 SageMaker HyperPod 叢集aws sagemaker update-cluster-software --cluster-name
。若要追蹤未來的安全修補程式,請繼續追蹤此 Amazon SageMaker HyperPod 版本備註頁面。若要了解your-cluster-name
UpdateClusterSoftware
API 的運作方式,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
SageMaker HyperPod 版本備註:2023 年 11 月 29 日
SageMaker HyperPod 會針對 釋出下列項目使用思盧姆協調 SageMaker HyperPod 叢集。
新功能
-
SageMaker HyperPod 於 AWS re:Invent 2023 推出 Amazon。
HyperPod 軟體修補程式
HyperPod 服務團隊會透過 分發軟體修補程式SageMaker HyperPod DLAMI。請參閱下列有關最新 的詳細資訊 HyperPod DLAMI。
-
建置於 2023-10-18 發行的AWS 深度學習基礎 GPUAMI(Ubuntu 20.04)
-
除了 基礎之外,此 HyperPod DLAMI 中預先安裝套件的完整清單 AMI
-
Slurm:
v23.02.3 -
Munge:0.5.15 版
-
aws-neuronx-dkms
:v2.* -
aws-neuronx-collectives
:v2.* -
aws-neuronx-runtime-lib
:v2.* -
aws-neuronx-tools
:v2.* -
SageMaker HyperPod 支援叢集運作狀態檢查和自動恢復等功能的 軟體套件
-