SageMaker HyperPod 参考文献 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 参考文献

在以下主题 SageMaker HyperPod 中查找有关使用的更多信息和参考资料。

SageMaker HyperPod 定价

以下主题提供有关 SageMaker HyperPod 定价的信息。要了解有关使用 SageMaker HyperPod 实例的每小时价格的更多详细信息,另请参阅 Amazon SageMaker 定价

容量请求

您可以分配按需计算容量或预留计算容量, SageMaker 以便在上使用 SageMaker HyperPod。按需创建集群会从按 SageMaker需容量池中分配可用容量。或者,您可以通过提交请求增加配额的票证来申请预留容量以确保访问权限。入站容量请求按优先顺序排列 SageMaker ,您将收到容量分配的估计时间。

服务账单

当您在上配置计算容量时 SageMaker HyperPod,您需要为容量分配的持续时间付费。 SageMaker HyperPod 账单会显示在您的周年账单中,其中包含容量分配类型(按需、预留)、实例类型和使用实例所花费的时间。

要提交提高配额的工单,请参阅SageMaker HyperPod 配额

SageMaker HyperPod APIs

以下列表是 SageMaker 通过以下JSON格式提交操作请求的完整列表 SageMaker HyperPod APIs AWS CLI 或者 AWS SDK for Python (Boto3).

SageMaker HyperPod 表格

要配置 Slurm 工作负载管理器工具 HyperPod,应 HyperPod 使用提供的表单创建所需的 Slurm 配置文件。

用于在上配置 Slurm 节点的配置表 HyperPod

以下代码是 Slurm 配置表单,您应该准备好在集群上正确设置 Slurm 节点。 HyperPod 您应该填写此表单,并在集群创建期间将其作为一组生命周期脚本的一部分上传。要了解在整个 HyperPod 集群创建过程中应如何准备此表单,请参阅SageMaker HyperPod 生命周期配置最佳实践

// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "string", "login_group": "string", "worker_groups": [ { "instance_group_name": "string", "partition_name": "string" } ], "fsx_dns_name": "string", "fsx_mountname": "string" }
  • version – 必需。这是 HyperPod 配置参数表单的版本。保持不变1.0.0

  • workload_manager – 必需。这是为了指定要在 HyperPod 集群上配置哪个工作负载管理器。保持不变slurm

  • controller_group – 必需。这是为了指定要分配给 Slurm 控制器(头)节点的 HyperPod 集群实例组的名称。

  • login_group – 可选。这是为了指定要分配给 Slurm 登录节点的 HyperPod 集群实例组的名称。

  • worker_groups – 必需。这用于在集群上设置 Slurm 工作节点(计算)。 HyperPod

    • instance_group_name – 必需。这是为了指定要分配给 Slurm worker(计算)节点的 HyperPod 实例组的名称。

    • partition_name – 必需。这是为了指定节点的分区名称。

  • fsx_dns_name – 可选。如果您想在 HyperPod 集群上设置 Slurm 节点以与 Amazon 通信FSx,请指定名称。FSx DNS

  • fsx_mountname – 可选。如果您想在 HyperPod 集群上设置 Slurm 节点以与 Amazon 通信FSx,请指定FSx挂载名称。

SageMaker HyperPod DLAMI

SageMaker HyperPod DLAMI基于以下条件运行:

捆绑了其他软件包,用于支持 Slurm、Kubernetes、依赖项和 SageMaker HyperPod 集群软件包等开源工具,以支持集群运行状况检查和自动恢复等弹性功能。 SageMaker HyperPod DLAMI要跟进 HyperPod 服务团队分发的 HyperPod 软件更新DLAMIs,请参阅Amazon SageMaker HyperPod 发行说明

SageMaker HyperPod API权限参考

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义IAM策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果IAM策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 SageMaker资源的权限

AWS Amazon 托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

在设置访问控制以允许运行 SageMaker HyperPod API操作并编写可附加给云管理员IAM用户的权限策略时,请使用下表作为参考。

亚马逊 SageMaker API运营 所需权限(API操作) 资源
CreateCluster sagemaker:CreateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DeleteCluster sagemaker:DeleteCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeCluster sagemaker:DescribeCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
DescribeClusterNode sagemaker:DescribeClusterNode arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusterNodes sagemaker:ListClusterNodes arn:aws:sagemaker:region:account-id:cluster/cluster-id
ListClusters sagemaker:ListClusters arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateCluster sagemaker:UpdateCluster arn:aws:sagemaker:region:account-id:cluster/cluster-id
UpdateClusterSoftware sagemaker:UpdateClusterSoftware arn:aws:sagemaker:region:account-id:cluster/cluster-id

有关权限和资源类型的完整列表 SageMaker APIs,请参阅 Amazon SageMaker 的操作、资源和条件密钥 AWS 服务授权参考

SageMaker HyperPod 中的命令 AWS CLI

以下是 AWS CLI SageMaker HyperPod 用于运行核心HyperPod API操作的命令。

SageMaker HyperPod 中的 Python 模块 AWS SDK for Python (Boto3)

以下是的方法 AWS SDK for Python (Boto3) 用于 SageMaker 运行核心HyperPod API操作的客户端。