使用 SageMaker HyperPod 的先决条件 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker HyperPod 的先决条件

在开始使用之前,以下各节将引导您了解先决条件 SageMaker HyperPod。

SageMaker HyperPod 配额

根据您的 SageMaker HyperPod 集群使用配额,您可以创建集群 AWS account。

重要

要了解有关 SageMaker HyperPod 定价的更多信息,请参阅SageMaker HyperPod 定价Amazon SageMaker 定价

使用查看亚马逊 SageMaker HyperPod配额 AWS 管理控制台

查找集群使用量的配额的默认值和应用值(也称为限制),用于 SageMaker HyperPod。

  1. 打开 Service Quotas 控制台

  2. 在左侧导航窗格中,选择 AWS 服务

  3. 中AWS 服务列表,搜索并选择 Amazon SageMaker

  4. 服务配额列表中,您可以看到服务配额名称、应用的值(如果可用)、 AWS 默认配额,以及配额值是否可调。

  5. 在搜索栏中,键入集群使用情况。这显示了集群使用配额、已应用配额和默认配额。

使用 Amazon 申请 SageMaker HyperPod 配额 AWS 管理控制台

增加账户或资源级别的配额。

  1. 要增加集群使用的实例配额,请选择要增加的配额。

  2. 如果配额是可调整的,则您可以根据可调整列中列出的值在账户级别或资源级别申请增加配额。

  3. 对于 “增加配额值”,输入新值。新值必须大于当前值。

  4. 选择请求

  5. 要在控制台中查看任何待处理的请求或最近已解决的请求,请从服务的详细信息页面导航到请求历史记录选项卡,或者从导航窗格中选择 D as hboard。对于待处理的请求,请选择请求状态以打开收到的请求。请求的初始状态为 Pending(待处理)。状态更改为 “已申请配额” 后,您会看到案例编号为 AWS Support。 选择案例编号以打开您的请求的票证。

要了解有关请求增加配额的更多信息,请参阅中的申请增加配额 AWS Service Quotas 用户指南

在 Amazon 上 SageMaker HyperPod进行设置 VPC

要使用您的 Amazon 设置 SageMaker HyperPod 集群VPC,请检查以下各项。

注意

它是与编排所必需的EKS,并且必须VPC对集群使用相同的值。 HyperPod 要使用 Slurm 进行编排,可以选择自己设置。VPC

  • 如果你想用自己的方式 SageMaker HyperPod 与VPC之建立联系 AWS 你中的资源VPC,你需要提供VPC名称、ID、 AWS 区域、子网 ID 和创建时的安全组 ID SageMaker HyperPod。如果要创建新的VPC,请参阅 Amazon Virtual Private Cloud 用户指南VPC中的创建默认值VPC或创建

  • 重要的是,你应该在同一个地方创建所有资源 AWS 区域 和可用区,然后配置安全组规则以允许在中的资源之间建立连接VPC。例如,假设您在VPC中创建了一个us-west-2。您应该在可用区中创建一个子网us-west-2a,并创建一个安全组,允许来自安全组内部的所有传入(入站)流量和所有出站流量。VPC

  • 您还需要确保您的连接VPC已连接到 Amazon Simple Storage Service (亚马逊 S3)。如果您配置VPC,则 SageMaker HyperPod 实例组无法访问互联网,因此无法连接到 Amazon S3 来访问或存储生命周期脚本、训练数据和模型项目等文件。要在使用时与 Amazon S3 建立连接VPC,您应该创建一个VPC终端节点。通过创建VPC终端节点,您可以允许 SageMaker HyperPod 实例组访问该终端节点中的 Amazon S3 存储桶。VPC我们还建议您创建自定义策略,仅允许来自您的私VPC有用户的请求访问您的 Amazon S3 存储桶。有关更多信息,请参阅中的 Amazon S3 终端节点 AWS PrivateLink 指南

  • 如果要创建EFA启用了实例的 HyperPod 集群,请务必将安全组设置为允许所有进出安全组本身的入站和出站流量。要了解更多信息,请参阅 Amazon EC2 用户指南中的步骤 1:准备EFA已启用安全组

设置 AWS Systems Manager 以及用于集群用户访问控制的 Run As

SageMaker HyperPod DLAMI附带 AWS Systems Manager(SSM) 开箱即用,可帮助您管理对 SageMaker HyperPod 集群实例组的访问权限。本节介绍如何在 SageMaker HyperPod 集群中创建操作系统 (OS) 用户并将他们与IAM用户和角色关联。这对于使用操作系统用户帐户的凭据对SSM会话进行身份验证非常有用。

在你的中启用 Run As AWS account

作为 AWS 账户管理员或云管理员,您可以使用中的运行身份功能,在IAM角色或用户级别管理对 SageMaker HyperPod 集群的访问权限SSM。使用此功能,您可以使用与IAM角色或用户关联的操作系统用户启动每个SSM会话。

要在你的中启用 Run As AWS 帐户,请按照 Linux 和 macOS 托管节点启用运行身份支持中的步骤进行操作。如果您已经在集群中创建了操作系统用户,请确保按照步骤 5 的选项 2 中的指导将他们与IAM角色或用户相关联,方法是在 “启用 Linux 和 macOS 托管节点运行身份支持” 下方的步骤 5 的选项 2 中的指导对其进行标记。

(Slurm) 使用附加到的亚马逊FSx文件系统 SageMaker HyperPod 作为共享空间设置 Linux 用户

要完成设置集群用户通过其访问 HyperPod 集群SSM和共享空间,您需要配置用于添加用户的脚本,同时准备用于创建 HyperPod 集群的生命周期配置脚本。在本节中介绍的 GitHub 存储库中从提供的基本生命周期脚本开始 HyperPod,有一个名为的脚本add_users.sh可以从中读取用户数据shared_users.txt。请注意,在准备生命周期脚本并将其上传到 Amazon S3 存储桶的过程中,您需要上传这两个文件,您将在本节开始使用 Slurm 进行编排 SageMaker HyperPod和本节中学习通过 Amazon FSx 共享空间设置多用户环境

(可选)在 Amazon SageMaker HyperPod 上设置 Lu FSx stre

要开始使用集群 SageMaker HyperPod 和您FSx的 for Lustre 文件系统之间的数据路径并将其映射,请选择其中一个 AWS 区域 由... 支持 SageMaker HyperPod。选择之后 AWS 区域 您还应该确定要使用哪个可用区 (AZ)。如果您使用的 SageMaker HyperPod 计算节点与 AZs for Lustre 文件系统的设置AZs位置不同 FSx AWS 区域,可能会有通信和网络开销。我们建议您使用与 SageMaker HyperPod 服务账户相同的物理可用区,以避免 SageMaker HyperPod 集群与您FSx的 for Lustre 文件系统之间出现任何跨可用区流量。另外,请确保已使用您的配置了它VPC。如果您想使用 Amazon FSx 作为存储的主文件系统,则必须使用配置 SageMaker HyperPod 集群VPC。