

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker HyperPod 版本備註
<a name="sagemaker-hyperpod-release-notes"></a>

本主題涵蓋追蹤 Amazon SageMaker HyperPod 更新、修正和新功能的版本備註。如果您正在尋找 Amazon SageMaker HyperPod 的一般功能發行、更新和改進，您可能會發現此頁面很有幫助。

HyperPod AMI 版本會個別記錄，以包含重要元件的資訊，包括一般 AMI 發行、版本和相依性。如果您要尋找這些與 HyperPod AMI 發行相關的資訊，請參閱 [Amazon SageMaker HyperPod AMI](sagemaker-hyperpod-release-ami.md)。

## SageMaker HyperPod 版本備註：2026 年 4 月 16 日
<a name="sagemaker-hyperpod-release-notes-20260416"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ **彈性執行個體群組** – 您現在可以使用新`InstanceRequirements`參數建立具有多個執行個體類型的執行個體群組。這會啟用優先順序型佈建，其中 HyperPod 會先嘗試佈建最高優先順序的執行個體類型，並在容量無法使用時回復為較低優先順序的類型。彈性執行個體群組透過減少所需的執行個體群組數量，簡化 Karpenter 自動擴展組態。每個執行個體群組最多可以指定 20 個執行個體類型。如需詳細資訊，請參閱[彈性執行個體群組](sagemaker-hyperpod-scaling-eks.md#sagemaker-hyperpod-scaling-eks-flexible-ig)。

## SageMaker HyperPod 版本備註：2026 年 1 月 25 日
<a name="sagemaker-hyperpod-release-notes-20260125"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 已發行適用於 Amazon EKS 1.34 的新 SageMaker HyperPod AMI。如需詳細資訊，請參閱[Amazon EKS 的 SageMaker Hyperpod AMI 版本：2026 年 1 月 25 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20260125)。

如需詳細資訊，請參閱 [Kubernetes v1.34。](https://kubernetes.io/blog/2025/08/27/kubernetes-v1-34-release/)

## SageMaker HyperPod 版本備註：2025 年 11 月 7 日
<a name="sagemaker-hyperpod-release-notes-20251107"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 升級的安全修補程式 [Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 11 月 7 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20251107)。

## SageMaker HyperPod 版本備註：2025 年 9 月 29 日
<a name="sagemaker-hyperpod-release-notes-20250929"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 已發行適用於 Amazon EKS 1.33 的新 SageMaker HyperPod AMI。如需詳細資訊，[Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 9 月 29 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250929)。
**重要**  
此版本預設會啟用動態資源配置 Beta Kubernetes API。  
此 API 可改善需要 GPUs 等資源的排程和監控工作負載。
此 API 是由開放原始碼 Kubernetes 社群開發，未來 Kubernetes 版本可能會變更。使用 API 之前，請檢閱 [Kubernetes 文件](https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/)並了解其如何影響您的工作負載。
HyperPod 不會釋出您遷移至 AL2023 的 HyperPod Amazon Linux 2 AMI for Kubernetes 1.33. AWS recommends。如需詳細資訊，請參閱[從 Amazon Linux 2 升級到 AL2023](https://docs.aws.amazon.com/eks/latest/userguide/al2023.html)。

如需詳細資訊，請參閱 [Kubernetes v1.33。](https://kubernetes.io/blog/2025/04/23/kubernetes-v1-33-release/)

## SageMaker HyperPod 版本備註：2025 年 8 月 4 日
<a name="sagemaker-hyperpod-release-notes-20250804"></a>

SageMaker HyperPod 為 EKS 協同運作發行新的公有 AMI。公有 AMI 可以自行使用，也可以用來建立自訂 AMI。如需公有 AMI 的詳細資訊，請參閱[公有 AMI 版本](sagemaker-hyperpod-release-public-ami.md)。如需建立自訂 AMI 的詳細資訊，請參閱[SageMaker HyperPod 叢集的自訂 Amazon Machine Image (AMI)](hyperpod-custom-ami-support.md)。

## SageMaker HyperPod 版本備註：2025 年 7 月 31 日
<a name="sagemaker-hyperpod-release-notes-20250731"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 發行新的 AMI，將 EKS 叢集的作業系統從 Amazon Linux 2 更新至 Amazon Linux 2023。主要升級包括 Linux Kernel 6.1、Python 3.10、NVIDIA 驅動程式 560.35.03，以及取代 YUM 的 DNF 套件管理員。
**重要**  
從 Amazon Linux 2 到 AL2023 的更新引入了重大變更，可能會影響與專為 AL2 設計之軟體和組態的相容性。強烈建議在完全升級您的叢集之前，先使用 AL2023 測試您的應用程式。

  如需新 AMI 以及如何升級叢集的詳細資訊，請參閱 [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 7 月 31 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250731)。

## SageMaker HyperPod 版本備註：2025 年 5 月 13 日
<a name="sagemaker-hyperpod-release-notes-20250513"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能和改進**
+ 已為 Slurm 叢集發行支援 Ubuntu 22.04 LTS 的更新 AMI。此版本包含數個系統和軟體元件升級，以提供改善的效能、更新的功能和增強的安全性。
**重要**  
從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 所引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。

  如需詳細資訊，請參閱：
  + [Ubuntu 22.04 AMI 中的重要更新](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
  + [升級到 Ubuntu 22.04 AMI](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
  + [針對升級失敗進行疑難排解](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

## SageMaker HyperPod 版本備註：2025 年 5 月 1 日
<a name="sagemaker-hyperpod-release-notes-20250501"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 已新增 EKS 協調叢集的用量報告，允許組織跨團隊專案或部門實作透明的用量型成本分配。此功能補充 HyperPod 的[任務治理](sagemaker-hyperpod-eks-operate-console-ui-governance.md)功能，以確保共用多租用戶 AI/ML 環境中的公平成本分配。如需詳細資訊，請參閱[在 HyperPod 中報告運算用量](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

## SageMaker HyperPod 版本備註：2025 年 4 月 28 日
<a name="sagemaker-hyperpod-release-notes-20250428"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 已將 NVIDIA 驅動程式從版本 550.144.03 升級至 550.163.01。此升級是為了解決 [2025 年 4 月 NVIDIA GPU 顯示器安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5630)中存在的 Common Vulnerabilities and Exposures (CVE)。

如需相關 AMI 版本的相關資訊，請參閱 [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 4 月 28 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20250428) 和 [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 4 月 28 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250428)。

## SageMaker HyperPod 版本備註：2025 年 4 月 18 日
<a name="sagemaker-hyperpod-release-notes-20250418"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 已發行適用於 Amazon EKS 1.32.1 的新 SageMaker HyperPod AMI。如需詳細資訊，請參閱[適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 4 月 18 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250418)。

## SageMaker HyperPod 版本備註：2025 年 4 月 10 日
<a name="sagemaker-hyperpod-release-notes-20250410"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能和改進**
+ 新增了直接喜好設定最佳化 (DPO) 配方教學課程，以進行 SageMaker HyperPod 與 Slurm 協同運作。此微調教學提供逐步指引，以在 GPU 驅動的 SageMaker HyperPod Slurm 叢集上使用 DPO 方法最佳化模型對齊。如需詳細資訊，請參閱[HyperPod Slurm 叢集 DPO 教學課程 (GPU)](hyperpod-gpu-slurm-dpo-tutorial.md)。

## SageMaker HyperPod 版本備註：2025 年 4 月 3 日
<a name="sagemaker-hyperpod-release-notes-20250403"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 新增了用於部署 SageMaker HyperPod 叢集的[快速入門](sagemaker-hyperpod-quickstart.md)頁面。此頁面利用 SageMaker HyperPod 專業研討會的簡化設定工作流程，並使用預先建置的 AWS CloudFormation 範本自動化部署。它支援基礎設施喜好設定，例如 Slurm 或 Amazon EKS，以便輕鬆設定和部署基準叢集。
+ SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。
  + 新的執行個體類型：I3en、M7i、R7i 執行個體。如需受支援執行個體的完整清單，請參閱 `[ClusterInstanceGroupDetails](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupDetails.html)` 中的 `InstanceType` 欄位。

## SageMaker HyperPod 版本備註：2025 年 3 月 16 日
<a name="sagemaker-hyperpod-release-notes-20250316"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 在 [https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateCluster.html) 和 [https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_UpdateCluster.html) API 操作中新增了下列 IAM 條件金鑰，以進行更精細的存取控制。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/sagemaker-hyperpod-release-notes.html)

## SageMaker HyperPod 版本備註：2025 年 2 月 20 日
<a name="sagemaker-hyperpod-release-notes-20250220"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 新增了從 SageMaker HyperPod 叢集刪除執行個體群組的支援。如需詳細資訊，請參閱從 EKS 協調叢集[刪除執行個體群組](smcluster-scale-down.md#smcluster-remove-instancegroup)，以及為 Slurm 協調叢集[縮減叢集](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-scale-down)。

## SageMaker HyperPod 版本備註：2025 年 2 月 18 日
<a name="sagemaker-hyperpod-release-notes-20250218"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能**
+ 此版本的 SageMaker HyperPod 包含來自 Nvidia 容器工具組的安全更新 (從 1.17.3 版到 1.17.4 版)。如需詳細資訊，請參閱 [v1.17.4 版本備註](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)。
**注意**  
對於 Nvidia 容器工具組 1.17.4 版中的所有容器工作負載，現已停用 CUDA 相容性程式庫的掛載。為了確保與容器工作流程上的多個 CUDA 版本相容，請更新您的 `LD_LIBRARY_PATH` 以包含您的 CUDA 相容性程式庫。您可以在[如果您使用 CUDA 相容性層](inference-gpu-drivers.md#collapsible-cuda-compat)中找到特定步驟。

如需相關 AMI 版本的相關資訊，請參閱 [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2025 年 2 月 18 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20250218) 和 [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 2 月 18 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250218)。

## SageMaker HyperPod 版本備註：2025 年 2 月 6 日
<a name="sagemaker-hyperpod-release-notes-20250206"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 和 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 發行下列項目。

**新功能和改進**
+ 增強型 SageMaker HyperPod 多 AZ 支援：您可以為叢集內的個別執行個體群組指定不同的子網路和安全群組，跨不同的可用區域切割。如需 SageMaker HyperPod 多可用區支援的詳細資訊，請參閱 [跨多個 AZ 設定 SageMaker HyperPod 叢集](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-multiple-availability-zones)。

## SageMaker HyperPod 版本備註：2025 年 1 月 22 日
<a name="sagemaker-hyperpod-release-notes-20250122"></a>

**AMI 版本**
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2025 年 1 月 22 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250122)

## SageMaker HyperPod 版本備註：2025 年 1 月 9 日
<a name="sagemaker-hyperpod-release-notes-20250109"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能和改進**
+ 新增了 IPv6 支援：使用已啟用 IPv6 的 VPC 和子網路進行設定時，叢集可以使用 IPv6 定址。如需詳細資訊，請參閱[使用自訂 Amazon VPC 設定 SageMaker HyperPod](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)。

## SageMaker HyperPod 版本備註：2024 年 12 月 21 日
<a name="sagemaker-hyperpod-release-notes-20241221"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。
  + 新的執行個體類型：C6gn、C6i、M6i、R6i。
  + 新的 Trainium 執行個體類型：Trn1 和 Trn1n。

**改進**
+ 增強了 Slurm 中斷任務時的錯誤記錄可見性，並防止在 Slurm 啟動的任務取消期間不必要的任務步驟終止。
+ 為 Slurm 和 Amazon EKS 叢集更新了 p5en 的基本 DLAMI。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 12 月 21 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241221)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 12 月 21 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241221)

## SageMaker HyperPod 版本備註：2024 年 12 月 13 日
<a name="sagemaker-hyperpod-release-notes-20241213"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ SageMaker HyperPod 發行一組 Amazon CloudWatch 指標，以監控 SageMaker HyperPod Slurm 叢集的運作狀態和效能。這些指標與 CPU、GPU、記憶體使用率和叢集執行個體資訊相關，例如節點計數和失敗的節點。此監控功能預設為啟用，並且您可以在 `/aws/sagemaker/Clusters` CloudWatch 命名空間下存取這些指標。您也可以根據這些指標設定 CloudWatch 警示，以主動偵測和解決其 Slurm 型 HyperPod 叢集內的潛在問題。如需詳細資訊，請參閱[Amazon SageMaker HyperPod Slurm 指標](smcluster-slurm-metrics.md)。

**AMI 版本**
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 12 月 13 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241213)

## SageMaker HyperPod 版本備註：2024 年 11 月 24 日
<a name="sagemaker-hyperpod-release-notes-20241124"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 新增了跨多個可用區域設定 SageMaker HyperPod 叢集的支援。如需 SageMaker HyperPod 多可用區支援的詳細資訊，請參閱 [跨多個 AZ 設定 SageMaker HyperPod 叢集](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-multiple-availability-zones)。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 24 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241124)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 11 月 24 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241124)

## SageMaker HyperPod 版本備註：2024 年 11 月 15 日
<a name="sagemaker-hyperpod-release-notes-20241115"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。如需詳細資訊，請參閱 和 [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241115)。

**新功能和改進**
+ 為 Amazon EKS 和 Slurm 協調的叢集新增了 trn1 和 trn1n 執行個體類型的支援。
+ 改善了 Slurm 叢集的日誌管理：
  +  實作了日誌輪換：每週或每日，根據大小而定。
  +  將日誌保留時間設定為 3 週。
  +  已壓縮日誌來減少儲存影響。
  +  繼續將日誌上傳至 CloudWatch 進行長期保留。
**注意**  
有些日誌仍存放在 syslog 中。
+ 已調整 Fluent Bit 設定，以防止包含長行的檔案出現追蹤問題。

**錯誤修正**
+ 防止組態檔案 `slurm.config` 中 Slurm 控制器節點更新出現意外截斷。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241115)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241115)

## SageMaker HyperPod 版本備註：2024 年 11 月 11 日
<a name="sagemaker-hyperpod-release-notes-20241111"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ SageMaker HyperPod AMI 現在支援 G6e 執行個體類型。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 11 月 11 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241111)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 11 月 11 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241111)

## SageMaker HyperPod 版本備註：2024 年 10 月 31 日
<a name="sagemaker-hyperpod-release-notes-20241031"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 為 Amazon EKS 和 Slurm 協調叢集，在執行個體群組層級和執行個體層級新增了縮減 SageMaker HyperPod 叢集。如需縮減 Amazon EKS 叢集的詳細資訊，請參閱 [縮減 SageMaker HyperPod 叢集](smcluster-scale-down.md)。如需縮減 Slurm 叢集的詳細資訊，請參閱在[使用 管理 SageMaker HyperPod Slurm 叢集 AWS CLI](sagemaker-hyperpod-operate-slurm-cli-command.md)中的「縮減叢集」**。
+ SageMaker HyperPod 現在支援 Amazon EKS 和 Slurm 協調叢集的 P5e 執行個體類型。

## SageMaker HyperPod 版本備註：2024 年 10 月 21 日
<a name="sagemaker-hyperpod-release-notes-20241021"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的 P5e[n]、G6、Gr6 和 Trn2[n] 執行個體類型。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 10 月 21 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241021)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 10 月 21 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241021)

## SageMaker HyperPod 版本備註：2024 年 9 月 10 日
<a name="sagemaker-hyperpod-release-notes-20240910"></a>

SageMaker HyperPod 會針對 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md) 和 [使用 Slurm 協作 SageMaker HyperPod 叢集Slurm 協同運作](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 在 SageMaker HyperPod 中新增了 Amazon EKS 支援。如需詳細資訊，請參閱 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md)。
+ 新增透過 CloudFormation 和 Terraform 管理 SageMaker HyperPod 叢集的支援。如需透過 管理 HyperPod 叢集的詳細資訊 CloudFormation，請參閱適用於 [的 CloudFormation 文件`AWS::SageMaker::Cluster`](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-resource-sagemaker-cluster.html)。若要了解如何透過 Terraform 管理 HyperPod 叢集，請參閱 [`awscc_sagemaker_cluster` 的 Terraform 文件](https://registry.terraform.io/providers/hashicorp/awscc/latest/docs/data-sources/sagemaker_cluster)。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 9 月 10 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20240910)
+ [適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本：2024 年 9 月 10 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20240910)

## SageMaker HyperPod 版本備註：2024 年 8 月 20 日
<a name="sagemaker-hyperpod-release-notes-20240820"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 增強了 [SageMaker HyperPod 自動繼續功能](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume)，為與一般資源 (GRES) 連接的 Slurm 節點擴充彈性功能。

  當[一般資源 (GRES)](https://slurm.schedmd.com/gres.html) 連接到 Slurm 節點時，Slurm 通常不允許節點配置的變更，例如取代節點，因此不允許繼續失敗的任務。除非明確禁止，否則 HyperPod 自動繼續功能會自動將與啟用 GRES 的節點相關聯的任何錯誤任務重新排入佇列。此程序涉及停止任務、將其放回任務佇列，然後從頭重新啟動任務。

**其他變更**
+ 已在 SageMaker HyperPod AMI 中預先封裝 [https://slurm.schedmd.com/slurmrestd.html](https://slurm.schedmd.com/slurmrestd.html)。
+ 已在 `slurm.conf` 中將 `ResumeTimeout` 和 `UnkillableStepTimeout` 的預設值從 60 秒變更為 300 秒，以改善系統回應能力和任務處理。
+ 針對 NVIDIA 資料中心 GPU 管理員 (DCGM) 和 NVIDIA 系統管理介面 (nvidia-smi) 的運作狀態檢查進行了次要改善。

**錯誤修正**
+ HyperPod 自動繼續外掛程式可以使用閒置節點來繼續任務。

## SageMaker HyperPod 版本備註：2024 年 6 月 20 日
<a name="sagemaker-hyperpod-release-notes-20240620"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 新增了將額外儲存體連接至 SageMaker HyperPod 叢集執行個體的新功能。透過此功能，您可以在叢集建立或更新程序進行期間，透過 SageMaker HyperPod 主控台或 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html) 和 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html) API，在執行個體群組組態層級設定補充儲存體。額外的 EBS 磁碟區會連接到 SageMaker HyperPod 叢集內的每個執行個體，並掛載到 `/opt/sagemaker`。若要進一步了解如何在 SageMaker HyperPod 叢集中實作它，請參閱以下頁面上的更新文件。
  + [開始使用 SageMaker HyperPod](smcluster-getting-started-slurm.md)
  + [SageMaker HyperPod Slurm 叢集操作](sagemaker-hyperpod-operate-slurm.md)

  請注意，您需要更新 HyperPod 叢集軟體才能使用此功能。修補 HyperPod 叢集軟體後，您可以透過新增執行個體群組，將此功能用於 2024 年 6 月 20 日之前建立的現有 SageMaker HyperPod 叢集。對於 2024 年 6 月 20 日之後建立的任何 SageMaker HyperPod 叢集，此功能完全有效。

**升級步驟**
+ 執行下列命令來呼叫 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html) API，以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示，請參閱 [更新叢集的 SageMaker HyperPod 平台軟體](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。
**重要**  
在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI，這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊，請參閱[使用 SageMaker HyperPod 提供的備份指令碼](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup)。

  ```
   aws sagemaker update-cluster-software --cluster-name your-cluster-name
  ```
**注意**  
請注意，您應該執行 AWS CLI 命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體。

## SageMaker HyperPod 版本備註：2024 年 4 月 24 日
<a name="sagemaker-hyperpod-release-notes-20240424"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**錯誤修正**
+ 已修正 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html) API 中 `ThreadsPerCore` 參數的錯誤。透過此修正，[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html) 和 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html) API 可透過 `ThreadsPerCore` 適當取得並套用使用者輸入。此修正對 2024 年 4 月 24 日之後建立的 HyperPod 叢集有效。如果您遇到此錯誤的問題，並想要將此修正套用至您的叢集，則需要建立新的叢集。確定您在移至新叢集時，遵循[使用 SageMaker HyperPod 提供的備份指令碼](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup)中的指示備份和還原您的工作。

## SageMaker HyperPod 版本備註：2024 年 3 月 27 日
<a name="sagemaker-hyperpod-release-notes-20240327"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**HyperPod 軟體修補程式**

HyperPod 服務團隊會透過 [SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami) 分發軟體修補程式。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。
+ 在此 HyperPod DLAMI 版本中，Slurm 是使用 REST 服務 (`slurmestd`) 建置的，並支援 JSON、YAML 和 JWT。
+ 已將 [Slurm](https://slurm.schedmd.com/documentation.html) 升級至 v23.11.3。

**改進**
+ 已將自動繼續服務逾時增加到 60 分鐘。
+ 已改善執行個體取代程序，使其不會重新啟動 Slurm 控制器。
+ 已改善執行生命週期指令碼時出現的錯誤訊息，例如下載錯誤和執行個體啟動時的執行個體運作狀態檢查錯誤。

**錯誤修正**
+ 已修正 chrony 服務導致時間同步問題的錯誤。
+ 已修正剖析 `slurm.conf` 的錯誤。
+ 已修正 [NVIDIA `go-dcgm`](https://github.com/NVIDIA/go-dcgm) 程式庫的問題。

## SageMaker HyperPod 版本備註：2024 年 3 月 14 日
<a name="sagemaker-hyperpod-release-notes-20240314"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**改進**
+ HyperPod 現在可適當支援傳遞透過 `provisioning_parameters.json` 提供的分割區名稱，並根據提供的輸入適當地建立分割區。如需 `provisioning_parameters.json` 的詳細資訊，請參閱 [舊版組態：visioning\$1parameters.json](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-provisioning-forms) 和 [使用生命週期指令碼自訂 SageMaker HyperPod 叢集](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2024 年 3 月 14 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20240314)

## SageMaker HyperPod 版本備註：2024 年 2 月 15 日
<a name="sagemaker-hyperpod-release-notes-20240215"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 新增了新的 `UpdateClusterSoftware` API 進行 SageMaker HyperPod 安全性修補。當安全性修補程式變成可用時，我們建議您執行 `aws sagemaker update-cluster-software --cluster-name your-cluster-name` 來更新帳戶中現有的 SageMaker HyperPod 叢集。若要追蹤未來的安全性修補程式，請繼續追蹤此 Amazon SageMaker HyperPod 版本備註頁面。若要了解 `UpdateClusterSoftware` API 的運作方式，請參閱[更新叢集的 SageMaker HyperPod 平台軟體](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。

## SageMaker HyperPod 版本備註：2023 年 11 月 29 日
<a name="sagemaker-hyperpod-release-notes-20231129"></a>

SageMaker HyperPod 會針對 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md) 發行下列項目。

**新功能**
+ 於 AWS re：Invent 2023 推出 Amazon SageMaker HyperPod。

**AMI 版本**
+ [適用於 Slurm 的 SageMaker HyperPod AMI 版本：2023 年 11 月 29 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20231129)