本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
ML 的容量區塊
ML 容量區塊可讓您在未來保留需求高的 GPU 執行個體,支援短期機器學習 (ML) 工作負載。容量區塊內執行的執行個體會在 Amazon EC2 UltraCluster
使用容量區塊,您可以查看未來何時可使用 GPU 執行個體容量,並且可以排定容量區塊在您最方便的時間啟動。保留容量區塊時,您可以獲得 GPU 執行個體的可預測容量保證,同時只須支付所需時間的費用。如果您需要 GPU 一次支援 ML 工作負載數天或數週,且不想在未使用 GPU 執行個體的情況下支付保留費用,建議您使用容量區塊。
以下是容量區塊的一些常見使用案例:
-
ML 模型訓練和微調 – 不間斷存取保留的 GPU 執行個體,以完成 ML 模型訓練和微調。
-
ML 實驗和原型 – 進行實驗並建置短時間需要 GPU 執行個體的原型。
容量區塊目前適用於特定區域中的 p5.48xlarge
、p5e.48xlarge
、trn1.32xlarge
、、 p5en.48xlarge
p4d.24xlarge
和 trn2.48xlarge
執行個體,如下所示:
-
p5.48xlarge
— 美國東部 (維吉尼亞北部) | 美國東部 (俄亥俄) | 美國西部 (奧勒岡) | 亞太區域 (東京) -
p5e.48xlarge
— 美國東部 (俄亥俄) | 歐洲 (斯德哥爾摩) -
p5en.48xlarge
— 美國東部 (俄亥俄) -
p4d.24xlarge
— 美國東部 (維吉尼亞北部) | 美國東部 (俄亥俄) | 美國西部 (奧勒岡) -
trn1.32xlarge
— 美國東部 (維吉尼亞北部) | 亞太區域 (墨爾本) -
trn2.48xlarge
— 美國東部 (俄亥俄)
您可以保留最多未來八週內的容量區塊。
您可以使用容量區塊,保留具有下列保留時間長度和執行個體數量選項的 p5
、p5e
、p5en
、p4d
、trn1
與 trn2
執行個體。
-
保留持續時間為以 1 天為增量最多可達 14 天,以 7 天為增量最多可達 182 天
-
1、2、4、8、16、32 或 64 個執行個體的保留執行個體數量選項
若要保留容量區塊,請先指定容量需求,包括所需的執行個體類型、執行個體數量、時間長度、最早開始日期,以及最晚結束日期。您就可以看到符合您規格的可用容量區塊方案。容量區塊方案包含詳細資訊,例如開始時間、可用區域和保留價格。容量區塊方案的價格取決於交付方案時的可用供給與需求。保留容量區塊後,價格不會變更。如需詳細資訊,請參閱容量區塊定價和計費。
購買容量區塊方案時,系統會根據您選取的日期和執行個體數量保留。容量區塊保留開始時,您可以在啟動請求中指定保留 ID,鎖定執行個體啟動。
您可以使用所有保留的執行個體,直到容量區塊結束時間前 30 分鐘為止。容量區塊保留剩 30 分鐘時,我們就會開始終止容量區塊中執行的所有執行個體。我們會利用這段時間清理您的執行個體,再將容量區塊交付給下一位客戶。我們會在終止程序開始前 10 分鐘,透過 EventBridge 發出事件。如需詳細資訊,請參閱使用 EventBridge 監控容量區塊。
支援平台
ML 容量區塊目前支援具有預設租用的 p5.48xlarge
、p5e.48xlarge
、p5en.48xlarge
、p4d.24xlarge
、trn1.32xlarge
與 trn2.48xlarge
執行個體。當您使用 AWS Management Console 購買容量區塊時,預設平台選項為 Linux/UNIX。當您使用 AWS Command Line Interface (AWS CLI) 或 AWS SDK 購買容量區塊時,可以使用下列平台選項:
-
Linux/UNIX
-
Red Hat Enterprise Linux
-
RHEL with HA
-
SUSE Linux
-
Ubuntu Pro
考量事項
使用容量區塊之前,請考慮下列詳細資訊和限制。
-
您可以描述最快 30 分鐘即可啟動的容量區塊供應項目。
-
容量區塊在國際標準時間 (UTC) 上午 11 點 30 分結束。
-
終止容量區塊中執行的執行個體程序會在保留的最後一天國際標準時間 (UTC) 上午 11 點開始。
-
可以保留最多未來 8 週內的容量區塊。
-
不可修改和取消容量區塊。
-
容量區塊無法跨 AWS 帳戶或在您的 AWS 組織內共用。
-
容量區塊無法在容量保留群組中使用。
-
組織中所有帳戶在容量區塊中可以保留的執行個體總數, AWS 在特定日期不得超過 64 個執行個體。
-
若要使用容量區塊,執行個體必須專門鎖定保留 ID。
-
容量區塊中的執行個體不會計入您的隨需執行個體限制。
-
對於使用自訂 AMI 的 P5 執行個體,請確保您擁有 EFA 所需的軟體和設定。
-
對於 Amazon EKS 受管節點群組,請參閱使用適用於 ML 的 Amazon EC2 容量區塊建立受管節點群組。對於 Amazon EKS 自我管理節點群組,請參閱使用自我管理節點來運用 ML 容量區塊。
相關資源
建立容量區塊後,您可以使用容量區塊執行以下操作:
-
在容量區塊中啟動執行個體。如需詳細資訊,請參閱在容量區塊中啟動執行個體。
-
建立 Amazon EC2 Auto Scaling 群組。如需詳細資訊,請參閱「Amazon EC2 Auto Scaling 使用者指南」的使用容量區塊處理機器學習工作負載。
注意
如果您使用 Amazon EC2 Auto Scaling 或 Amazon EKS,您可以在容量區塊保留開始時排定擴展。透過排程擴展, AWS 會自動為您處理重試,因此您不需要擔心實作重試邏輯來處理暫時性故障。
-
使用 增強 ML 工作流程 AWS ParallelCluster。如需詳細資訊,請參閱使用 AWS ParallelCluster 和適用於 ML 的 Amazon EC2 容量區塊增強 ML 工作流程
。
如需 的詳細資訊 AWS ParallelCluster,請參閱什麼是 AWS ParallelCluster。