本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 參考
在下列主題中,尋找有關使用 SageMaker HyperPod 的詳細資訊和參考。
主題
SageMaker HyperPod 定價
下列主題提供有關 SageMaker HyperPod 定價的資訊。若要進一步了解使用 SageMaker HyperPod 執行個體的每小時價格詳細資訊,請參閱 Amazon SageMaker AI 定價
容量請求
您可以使用 SageMaker AI 配置隨需或預留的運算容量,以便在 SageMaker HyperPod 上使用。隨需叢集建立會從 SageMaker AI 隨需容量集區配置可用容量。或者,您可以請求預留容量,透過提交提高配額的票證來確保存取。傳入容量請求由 SageMaker AI 優先處理,您會收到容量分配的預估時間。
服務帳單
當您在 SageMaker HyperPod 上佈建運算容量時,您需要支付容量分配期間的費用。SageMaker HyperPod 帳單會顯示在您的周年帳單中,其中包含容量分配類型 (隨需、預留)、執行個體類型,以及使用執行個體所花費的時間明細項目。
若要提交提高配額的票證,請參閱 SageMaker HyperPod 配額。
SageMaker HyperPod APIs
以下清單是一組完整的 SageMaker HyperPod APIs用於透過 AWS CLI 或 將 JSON 格式的動作請求提交至 SageMaker AI AWS SDK for Python (Boto3)。
SageMaker HyperPod 表單
若要在 HyperPod 上設定 Slurm 工作負載管理員工具,您應該使用提供的表單建立 HyperPod 所需的 Slurm 組態檔案。
在 HyperPod 上佈建 Slurm 節點的組態表單
下列程式碼是 Slurm 組態表單,您應該準備在 HyperPod 叢集上正確設定 Slurm 節點。您應該填寫此表格,並在叢集建立期間將其上傳為一組生命週期指令碼的一部分。若要了解如何在整個 HyperPod 叢集建立程序中準備此表格,請參閱 使用生命週期指令碼自訂 SageMaker HyperPod 叢集。
// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "
string
", "login_group": "string
", "worker_groups": [ { "instance_group_name": "string
", "partition_name": "string
" } ], "fsx_dns_name": "string
", "fsx_mountname": "string
" }
-
version
- 必要。這是 HyperPod 佈建參數表單的版本。將其保留至1.0.0
。 -
workload_manager
- 必要。這是用於指定要在 HyperPod 叢集上設定的工作負載管理員。將其保留為slurm
。 -
controller_group
- 必要。這是用於指定您要指派給 Slurm 控制器 (前端) 節點的 HyperPod 叢集執行個體群組名稱。 -
login_group
- 選用。這是用於指定您要指派給 Slurm 登入節點的 HyperPod 叢集執行個體群組名稱。 -
worker_groups
- 必要。這是用於在 HyperPod 叢集上設定 Slurm 工作者 (運算) 節點。-
instance_group_name
- 必要。這是用於指定您要指派給 Slurm 工作者 (運算) 節點的 HyperPod 執行個體群組名稱。 -
partition_name
- 必要。這是用於指定節點的分割區名稱。
-
-
fsx_dns_name
- 選用。如果您想要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon FSx 通訊,請指定 FSx DNS 名稱。 -
fsx_mountname
- 選用。如果您想要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon FSx 通訊,請指定 FSx 掛載名稱。
SageMaker HyperPod DLAMI
SageMaker HyperPod 會根據下列項目執行 DLAMI:
-
適用於與 Slurm 協調的AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)
。 -
Amazon Linux 2 型 AMI 適用於與 Amazon EKS 協調。
SageMaker HyperPod DLAMI 隨附其他套件,以支援 Slurm、Kubernetes、相依性和 SageMaker HyperPod 叢集軟體套件等開放原始碼工具,以支援叢集運作狀態檢查和自動恢復等彈性功能。若要追蹤 HyperPod 服務團隊透過 DLAMIs 分發的 HyperPod 軟體更新,請參閱 Amazon SageMaker HyperPod 版本備註。
SageMaker HyperPod API 許可參考
重要
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授予許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記他們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則嘗試建立資源時可能會發生「AccessDenied」錯誤。如需詳細資訊,請參閱提供標記 SageMaker AI 資源的許可。
AWS Amazon SageMaker AI 的 受管政策 提供建立 SageMaker 資源的許可,已包含建立這些資源時新增標籤的許可。
當您設定存取控制以允許 執行 SageMaker HyperPod API 操作,並撰寫可連接至雲端管理員 IAM 使用者的許可政策時,請使用下表做為參考。
Amazon SageMaker API 操作 | 必要許可 (API 動作) | 資源 |
CreateCluster | sagemaker:CreateCluster |
arn:aws:sagemaker: |
DeleteCluster | sagemaker:DeleteCluster |
arn:aws:sagemaker: |
DescribeCluster | sagemaker:DescribeCluster |
arn:aws:sagemaker: |
DescribeClusterNode | sagemaker:DescribeClusterNode |
arn:aws:sagemaker: |
ListClusterNodes | sagemaker:ListClusterNodes |
arn:aws:sagemaker: |
ListClusters | sagemaker:ListClusters |
arn:aws:sagemaker: |
UpdateCluster | sagemaker:UpdateCluster |
arn:aws:sagemaker: |
UpdateClusterSoftware | sagemaker:UpdateClusterSoftware |
arn:aws:sagemaker: |
如需 SageMaker APIs 許可和資源類型的完整清單,請參閱AWS 服務授權參考中的 Amazon SageMaker AI 的動作、資源和條件索引鍵。
中的 SageMaker HyperPod 命令 AWS CLI
以下是 SageMaker HyperPod 執行核心 HyperPod API 操作的 AWS CLI 命令。
中的 SageMaker HyperPod Python 模組 AWS SDK for Python (Boto3)
以下是 SageMaker AI AWS SDK for Python (Boto3) 用戶端執行核心 HyperPod API 操作的方法。