使用 Amazon 编排 SageMaker HyperPod 集群 EKS - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon 编排 SageMaker HyperPod 集群 EKS

SageMaker HyperPod 是一项 SageMaker托管服务,支持在长时间运行且具有弹性的计算集群上大规模训练基础模型,并与 Amazon 集成EKS以协调计算资源。 HyperPod 您可以使用具有 HyperPod弹性功能的 Amazon EKS 集群大规模运行长达数周或数月的不间断训练作业,这些功能可以检查各种硬件故障并自动恢复故障节点。

集群管理员用户的主要功能包括以下内容。

  • 配置弹性 HyperPod 集群并将其连接到EKS控制平面

  • 启用动态容量管理,例如添加更多节点、更新软件和删除集群

  • 允许直接通过kubectl或 SSM /访问集群实例 SSH

  • 提供弹性功能,包括基本运行状况检查、深度运行状况检查、运行状况监控代理以及对作业自动恢复的 PyTorch 支持

  • Amazon Container Insights、适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 等可观察性工具 CloudWatch集成

对于数据科学家用户,中的EKS支持 HyperPod 可实现以下功能。

  • 在集群上运行用于训练基础模型的容器化工作负载 HyperPod

  • 利用和之间的 HyperPod 集成,在EKS集群上运行推理 EKS

  • 利用作业自动恢复功能进行 Kubeflow PyTorch 训练 () PyTorchJob

Amazon EKS 支持的高级架构 HyperPod 涉及EKS集群(控制平面)和中的集 HyperPod 群(工作节点)之间的一对一映射VPC,如下图所示。