本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 參考
請在下列主題中尋找有關使用 SageMaker HyperPod 的詳細資訊和參考資料。
主題
SageMaker HyperPod 定價
下列主題提供有關 SageMaker HyperPod 定價的資訊。如需使用 SageMaker HyperPod 執行個體每小時價格的詳細資訊,另請參閱 Amazon SageMaker 定價
容量請求
您可以配置隨需或預留的運算容量,以 SageMaker 供在上使用 SageMaker HyperPod。隨選叢集建立會從隨 SageMaker需容量集區配置可用容量。或者,您可以透過提交要求提高配額的票證來請求保留容量以確保存取權限。傳入容量請求的優先順序排列 SageMaker ,您會收到容量配置的估計時間。
服務帳單
在佈建計算容量時 SageMaker HyperPod,會按照容量配置的持續時間向您收費。 SageMaker HyperPod 帳單會顯示在您的週年紀念帳單中,其中包含容量配置類型 (隨需、保留)、執行個體類型和使用執行個體所花費的時間的明細項目。
若要提交提高配額的工單,請參閱SageMaker HyperPod 配額。
SageMaker HyperPod APIs
下面的列表是一套完整的 SageMaker HyperPod APIs提交操作請求的JSON格式通 SageMaker 過 AWS CLI 或 AWS SDK for Python (Boto3).
SageMaker HyperPod 形式
若要在上設定 Slurm 工作負載管理員工具 HyperPod,您應該 HyperPod 使用提供的表單建立所需的 Slurm 組態檔案。
佈建 Slurm 節點的組態表單 HyperPod
下列程式碼是 Slurm 組態表單,您應該準備好在叢集上正確設定 Slurm 節點。 HyperPod 您應該填寫此表單,並在叢集建立期間將其作為一組生命週期指令碼的一部分上傳。若要瞭解如何在 HyperPod 叢集建立程序中準備此表單,請參閱使用生命週期指令碼自訂 SageMaker HyperPod叢集。
// Save as provisioning_params.json. { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "
string
", "login_group": "string
", "worker_groups": [ { "instance_group_name": "string
", "partition_name": "string
" } ], "fsx_dns_name": "string
", "fsx_mountname": "string
" }
-
version
- 必要。這是 HyperPod 佈建參數表單的版本。保持它1.0.0
。 -
workload_manager
- 必要。這是用來指定要在 HyperPod 叢集上設定的工作負載管理員。保持它slurm
。 -
controller_group
- 必要。這是用來指定要指派給 Slurm 控制器 (head) 節點的 HyperPod 叢集執行個體群組名稱。 -
login_group
- 選用。這是用來指定要指派給 Slurm 登入節點的 HyperPod 叢集執行個體群組名稱。 -
worker_groups
- 必要。這是為了在叢集上設定 Slurm 工作者 (計算) 節點 HyperPod 。-
instance_group_name
- 必要。這是為了指定要分配給 Slurm 工作者(計算)節點的 HyperPod 實例組的名稱。 -
partition_name
- 必要。這是為節點指定磁碟分割名稱。
-
-
fsx_dns_name
- 選用。如果要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon 通訊FSx,請指定名稱。FSx DNS -
fsx_mountname
- 選用。如果要在 HyperPod 叢集上設定 Slurm 節點以與 Amazon 通訊FSx,請指定FSx掛載名稱。
SageMaker HyperPod DLAMI
SageMaker HyperPod 運行DLAMI基於:
-
AWS 深度學習基礎 GPUAMI(Ubuntu 20.04),用
於與思倫進行協調。 -
Amazon Linux 2 基AMI於與 Amazon EKS 的協調。
隨附其他套件,可支援 Slurm、Kubernetes、相依性和 SageMaker HyperPod 叢集軟體套件等開放原始碼工具,以支援叢集健康狀態檢查和自動恢復等復原功能。 SageMaker HyperPod DLAMI若要跟進 HyperPod 服務團隊散發的 HyperPod 軟體更新DLAMIs,請參閱Amazon SageMaker HyperPod 版本備註。
SageMaker HyperPod API權限參考
重要
允許 Amazon SageMaker Studio 或 Amazon 工作室經典版建立 Amazon SageMaker SageMaker 資源的自訂IAM政策還必須授予許可,才能將標籤新增到這些資源。需要向資源添加標籤的權限,因為 Studio 和 Studio 經典版會自動標記它們創建的任何資源。如果IAM原則允許 Studio 和 Studio 典型版建立資源,但不允許標記,則在嘗試建立資源時可能會發生 AccessDenied "" 錯誤。如需詳細資訊,請參閱提供標記 SageMaker資源的許可。
AWS Amazon 的受管政策 SageMaker授予建立 SageMaker 資源的權限,已包含在建立這些資源時新增標籤的權限。
當您設定存取控制以允許執行 SageMaker HyperPod API作業,並撰寫可附加至雲端管理員使用IAM者的權限原則時,請使用下表作為參考。
Amazon SageMaker API 運營 | 必要權限 (API動作) | 資源 |
CreateCluster | sagemaker:CreateCluster |
arn:aws:sagemaker: |
DeleteCluster | sagemaker:DeleteCluster |
arn:aws:sagemaker: |
DescribeCluster | sagemaker:DescribeCluster |
arn:aws:sagemaker: |
DescribeClusterNode | sagemaker:DescribeClusterNode |
arn:aws:sagemaker: |
ListClusterNodes | sagemaker:ListClusterNodes |
arn:aws:sagemaker: |
ListClusters | sagemaker:ListClusters |
arn:aws:sagemaker: |
UpdateCluster | sagemaker:UpdateCluster |
arn:aws:sagemaker: |
UpdateClusterSoftware | sagemaker:UpdateClusterSoftware |
arn:aws:sagemaker: |
如需的權限和資源類型的完整清單 SageMaker APIs,請參閱 Amazon SageMaker 的動作、資源和條件金鑰。AWS 服務授權參考。
SageMaker HyperPod 中的指令 AWS CLI
以下是 AWS CLI 用於執 SageMaker HyperPod 行核心HyperPod API作業的命令。
SageMaker HyperPod Python 模塊 AWS SDK for Python (Boto3)
以下是的方法 AWS SDK for Python (Boto3) 用於運 SageMaker 行核心HyperPod API操作的客戶端。