本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod
SageMaker HyperPod 帮助您配置弹性集群,以运行机器学习 (ML) 工作负载和开发 state-of-the-art大型语言模型 (LLMs)、扩散模型和基础模型 (FMs) 等模型。它FMs通过消除构建和维护由数千个加速器(例如 AWS Trainium、NVIDIA A100 和 H100 图形处理单元)提供支持的大型计算集群所涉及的无差别繁重工作来加速开发()。GPUs当加速器出现故障时, SageMaker HyperPod 监控集群实例的弹性功能会自动检测并即时更换故障硬件,这样您就可以专注于运行 ML 工作负载。
要开始使用,请选使用 SageMaker HyperPod 的先决条件中AWS Identity and Access Management 对于 SageMaker HyperPod、设置并选择以下支持的 Orchestrator 选项之一。 SageMaker HyperPod
Slurm 支持中 SageMaker HyperPod
SageMaker HyperPod 通过与开源工作负载管理器 Slurm 集成,为在弹性集群上运行机器学习工作负载提供支持。中的 Slurm 支持通过 Slurm 集群配置 SageMaker HyperPod实现了无缝集群编排,允许您在集群上设置主节点、登录节点和工作节点。该集成还便于基于 SLURM 的作业调度,以便在集 SageMaker HyperPod 群上运行 ML 工作负载,以及直接访问集群节点进行作业调度。借助 HyperPod生命周期配置支持,您可以自定义集群的计算环境以满足您的特定要求。此外,通过利用 Amazon SageMaker AI 分布式训练库,您可以优化集群在 AWS 计算和网络资源方面的性能。要了解更多信息,请参阅 使用 Slurm 编排 SageMaker HyperPod 集群。
亚马逊EKS支持中 SageMaker HyperPod
SageMaker HyperPod 还与 Amazon 集成EKS,可在长时间运行且具有弹性的计算集群上大规模训练基础模型。这允许集群管理员用户配置 HyperPod 集群并将其连接到EKS控制平面,从而实现动态容量管理、直接访问集群实例和弹性功能。对于数据科学家,Amazon 的EKS支持 HyperPod 允许为训练基础模型运行容器化工作负载,在EKS集群上进行推理,以及利用作业自动恢复功能进行 Kubeflow 训练。 PyTorch 该架构涉及EKS集群(控制平面)和集 HyperPod群(工作节点)之间的一对一映射VPC,为运行大规模机器学习工作负载提供了紧密集成的解决方案。要了解更多信息,请参阅 使用 Amazon 协调 SageMaker HyperPod 集群 EKS。
AWS 区域 支持 SageMaker HyperPod
SageMaker HyperPod 可在以下版本中找到 AWS 区域。
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1
-
sa-east-1