

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker HyperPod
<a name="sagemaker-hyperpod"></a>

SageMaker HyperPod 可協助您佈建彈性叢集，以執行機器學習 (ML) 工作負載和開發最先進的模型，例如大型語言模型 (LLM)、擴散模型和基礎模型 FM)。它透過移除建置和維護採用 AWS Trainium 和 NVIDIA A100 和 H100 圖形處理器 (GPUs) 等數千個加速器的大型運算叢集所涉及的未區分的繁重提升，加速 FMs 的開發。加速器故障時，SageMaker HyperPod 的彈性功能會監控叢集執行個體，以自動即時偵測並置換故障的硬體，讓您可以專注於執行 ML 工作負載。

若要開始使用，請檢查 [使用 SageMaker HyperPod 的先決條件](sagemaker-hyperpod-prerequisites.md)、設定 [AWS Identity and Access Management for SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md)，然後選擇 SageMaker HyperPod 支援的下列其中一個協調器選項。

**SageMaker HyperPod 中的 Slurm 支援**

SageMaker HyperPod 透過與 Slurm (開放原始碼工作負載管理員) 整合，提供在彈性叢集上執行機器學習工作負載的支援。SageMaker HyperPod 中的 Slurm 支援會透過 Slurm 叢集組態啟用無縫叢集協同運作，從而可讓您在 SageMaker HyperPod 叢集上設定前端、登入和工作節點。此整合也有助於在叢集上執行 ML 工作負載的 Slurm 型任務排程，以及直接存取叢集節點以進行任務排程。透過 HyperPod 的生命週期組態支援，您可以自訂叢集的運算環境，以符合您的特定要求。此外，透過利用 Amazon SageMaker AI 分散式訓練程式庫，您可以最佳化叢集的 AWS 運算和網路資源效能。如需詳細資訊，請參閱 [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md)。

**SageMaker HyperPod 中的 Amazon EKS 支援**

SageMaker HyperPod 也會與 Amazon EKS 整合，以在長時間執行和彈性運算叢集上啟用大規模訓練基礎模型。這可讓叢集管理員使用者佈建 HyperPod 叢集，並將其連接至 EKS 控制平面，從而啟用動態容量管理、直接存取叢集執行個體，以及彈性功能。對於資料科學家，HyperPod 中的 Amazon EKS 支援允許執行容器化工作負載，以訓練基礎模型、在 EKS 叢集上進行推論，以及利用任務自動繼續功能進行 Kubeflow PyTorch 訓練。架構涉及 EKS 叢集 (控制平面) 與 VPC 內 HyperPod 叢集 (工作節點) 之間的 1 對 1 對應，這會提供緊密整合的解決方案，以執行大規模 ML 工作負載。如需詳細資訊，請參閱 [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md)。

**UltraServer 搭配 HyperPod**

HyperPod 搭配 UltraServer 透過將 NVIDIA 超級晶片整合到具凝聚力的高效能基礎設施來提供 AI 運算能力。每個 NVL72 UltraServer 將 18 個執行個體與透過 NVLink 互連的 72 個 NVIDIA Blackwell GPU 結合在一起，與上一代執行個體相比，可提供更快的推論和更快的訓練效能。此架構對於使用兆參數基礎模型的組織特別有價值，因為統一的 GPU 記憶體可讓整個模型保持在單一 NVLink 網域內，消除跨節點聯網瓶頸。HyperPod 透過智慧型拓撲感知排程增強了此硬體優勢，其可最佳化工作負載置放、最佳化將中斷降至最低的自動執行個體取代，以及最佳化同時支援專用和共用資源組態的彈性部署選項。對於突破模型大小和效能界限的團隊，此整合提供所需的運算基礎，以前所未有的效率訓練和部署最先進的 AI 模型。

SageMaker HyperPod 會跨 UltraServer 自動最佳化執行個體置放。根據預設，HyperPod 會先排定一個 UltraServer 中所有執行個體的優先順序，再使用不同的 UltraServer。例如，如果您想要 14 個執行個體，並且您的計畫中擁有 2 個 UltraServer，則 SageMaker AI 會使用第一個 UltraServer 中的所有執行個體。如果您想要 20 個執行個體，SageMaker AI 會使用第一個 UltraServer 中的所有 18 個執行個體，然後從第二個 UltraServer 再使用 2 個執行個體。

## AWS 區域 SageMaker HyperPod 支援
<a name="sagemaker-hyperpod-available-regions"></a>

下列提供 SageMaker HyperPod AWS 區域。
+ us-east-1
+ us-east-2
+ us-west-1
+ us-west-2
+ eu-central-1
+ eu-north-1
+ eu-west-1
+ eu-west-2
+ eu-south-2
+ ap-south-1
+ ap-southeast-1
+ ap-southeast-2
+ ap-southeast-3
+ ap-southeast-4
+ ap-northeast-1
+ sa-east-1

**Topics**
+ [AWS 區域 SageMaker HyperPod 支援](#sagemaker-hyperpod-available-regions)
+ [Amazon SageMaker HyperPod 快速入門](sagemaker-hyperpod-quickstart.md)
+ [使用 SageMaker HyperPod 的先決條件](sagemaker-hyperpod-prerequisites.md)
+ [AWS Identity and Access Management for SageMaker HyperPod](sagemaker-hyperpod-prerequisites-iam.md)
+ [SageMaker HyperPod 的客戶受管 AWS KMS key 加密](smcluster-cmk.md)
+ [SageMaker HyperPod 配方](sagemaker-hyperpod-recipes.md)
+ [使用 Slurm 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-slurm.md)
+ [使用 Amazon EKS 協作 SageMaker HyperPod 叢集](sagemaker-hyperpod-eks.md)
+ [在 Amazon SageMaker HyperPod 中使用拓撲感知排程](sagemaker-hyperpod-topology.md)
+ [在 Amazon SageMaker HyperPod 上部署模型](sagemaker-hyperpod-model-deployment.md)
+ [Studio 中的 HyperPod](sagemaker-hyperpod-studio.md)
+ [SageMaker HyperPod 參考](sagemaker-hyperpod-ref.md)
+ [Amazon SageMaker HyperPod 版本備註](sagemaker-hyperpod-release-notes.md)
+ [Amazon SageMaker HyperPod AMI](sagemaker-hyperpod-release-ami.md)