

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# ML 的容量區塊
<a name="ec2-capacity-blocks"></a>

ML 的容量區塊可讓您為日後預留基於 GPU 的加速運算執行個體，以支援短時間的機器學習 (ML) 工作負載。在容量區塊內執行的執行個體會自動放置在 [Amazon EC2 UltraClusters ](https://aws.amazon.com/ec2/ultraclusters/)內，用於低延遲、PB 級的非封鎖聯網。

您亦可使用容量區塊，來預留 Amazon EC2 UltraServers 的容量。UltraServer 以低延遲、高頻寬加速器互連，來連線多個 Amazon EC2 執行個體。您可藉助 UltraServers，來處理訓練、微調及推論中運算與記憶體最密集的 AI/ML 工作負載。若要了解詳細資訊，請參閱 [Amazon EC2 UltraServer](https://aws.amazon.com/ec2/ultraservers/)。

使用容量區塊，您可以查看未來何時可使用 GPU 執行個體容量，並且可以排定容量區塊在您最方便的時間啟動。保留容量區塊時，您可以獲得 GPU 執行個體的可預測容量保證，同時只須支付所需時間的費用。如果您需要 GPU 一次支援 ML 工作負載數天或數週，且不想在未使用 GPU 執行個體的情況下支付保留費用，建議您使用容量區塊。

以下是容量區塊的一些常見使用案例：
+ **ML 模型訓練和微調** – 不間斷存取保留的 GPU 執行個體，以完成 ML 模型訓練和微調。
+ **ML 實驗和原型** – 進行實驗並建置短時間需要 GPU 執行個體的原型。

容量區塊適用於某些 AWS 區域中的特定執行個體類型。如需詳細資訊，請參閱[支援的執行個體類型和區域](#capacity-blocks-prerequisites)。

您可以保留最多未來八週內的容量區塊。每個容量區塊可包含最多 64 個執行個體，且跨容量區塊可包含最多 256 個執行個體。

**Topics**
+ [支援的執行個體類型和區域](#capacity-blocks-prerequisites)
+ [支援平台](#capacity-blocks-platforms)
+ [考量事項](#capacity-blocks-considerations)
+ [相關資源](#capacity-blocks-related-resources)
+ [Amazon EC2 容量區塊的運作方式](capacity-blocks-how.md)
+ [容量區塊定價和計費](capacity-blocks-pricing-billing.md)
+ [尋找和購買容量區塊](capacity-blocks-purchase.md)
+ [使用容量區塊來啟動執行個體](capacity-blocks-launch.md)
+ [檢視容量區塊](capacity-blocks-view.md)
+ [延長容量區塊](capacity-blocks-extend.md)
+ [共用容量區塊](capacity-blocks-share.md)
+ [為 UltraServer 容量區塊建立一個資源群組](cb-group.md)
+ [使用 EventBridge 監控容量區塊](capacity-blocks-monitor.md)
+ [使用 記錄容量區塊 API 呼叫 AWS CloudTrail](capacity-blocks-logging-using-cloudtrail.md)

## 支援的執行個體類型和區域
<a name="capacity-blocks-prerequisites"></a>

執行個體和 UltraServer 容量區塊可與下列執行個體類型和 AWS 區域搭配使用。

**注意**  
並非所有 AWS 區域的所有執行個體類型都支援 64 個執行個體的容量區塊大小。

### 執行個體容量區塊
<a name="capacity-blocks-instance-prerequisites"></a>
+ **`p6-b300.48xlarge`**
  + 美國西部 （奧勒岡） — `us-west-2`
+ **`p6-b200.48xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （奧勒岡） — `us-west-2`
+ **`p5.4xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （奧勒岡） — `us-west-2`
  + 歐洲 （倫敦） — `eu-west-2`
  + 亞太區域 （孟買） — `ap-south-1`
  + 亞太區域 （東京） — `ap-northeast-1`
  + 亞太區域 （雪梨） — `ap-southeast-2`
  + 南美洲 （聖保羅） — `sa-east-1`
+ **`p5.48xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （加利佛尼亞北部） — `us-west-1`
  + 美國西部 （奧勒岡） — `us-west-2`
  + 歐洲 （斯德哥爾摩） — `eu-north-1`
  + 歐洲 （倫敦） — `eu-west-2`
  + 南美洲 （聖保羅） — `sa-east-1`
  + 亞太區域 （東京） — `ap-northeast-1`
  + 亞太區域 （孟買） — `ap-south-1`
  + 亞太區域 （雪梨） — `ap-southeast-2`
  + 亞太區域 （雅加達） — `ap-southeast-3`
  + 美國東部 （亞特蘭大） 本地區域 — `us-east-1-atl-2a`
+ **`p5e.48xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （加利佛尼亞北部） — `us-west-1`
  + 美國西部 （奧勒岡） — `us-west-2`
  + 歐洲 （斯德哥爾摩） — `eu-north-1`
  + 歐洲 （倫敦） — `eu-west-2`
  + 歐洲 （西班牙） — `eu-south-2`
  + 南美洲 （聖保羅） — `sa-east-1`
  + 亞太區域 （東京） — `ap-northeast-1`
  + 亞太區域 （首爾） — `ap-northeast-2`
  + 亞太區域 （孟買） — `ap-south-1`
  + 亞太區域 （雅加達） — `ap-southeast-3`
  + 美國西部 （鳳凰城） 本地區域 — `us-west-2-phx-2a`
+ **`p4d.24xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （奧勒岡） — `us-west-2`
+ **`p4de.24xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國西部 （奧勒岡） — `us-west-2`
+ **`trn1.32xlarge`**
  + 美國東部 （維吉尼亞北部） — `us-east-1`
  + 美國東部 （俄亥俄） — `us-east-2`
  + 美國西部 （加利佛尼亞北部） — `us-west-1`
  + 美國西部 （奧勒岡） — `us-west-2`
  + 歐洲 （斯德哥爾摩） — `eu-north-1`
  + 亞太區域 （孟買） — `ap-south-1`
  + 亞太區域 （雪梨） — `ap-southeast-2`
  + 亞太區域 （墨爾本） — `ap-southeast-4`
+ **`trn2.3xlarge `**
  + 亞太區域 （墨爾本） — `ap-southeast-4`
  + 南美洲 （聖保羅） — `sa-east-1`
+ **`trn2.48xlarge`**
  + 美國東部 （俄亥俄） — `us-east-2`

### UltraServer 容量區塊
<a name="capacity-blocks-ultraserver-prerequisites"></a>
+ **`Trn2`**
  + 美國東部 （俄亥俄） — `us-east-2`
+ **`P6e-GB200`**
  + 美國東部 （達拉斯） 本地區域 — `us-east-1-dfw-2a`

## 支援平台
<a name="capacity-blocks-platforms"></a>

ML 容量區塊目前支援具有預設租用的執行個體和 UltraServer。當您使用 AWS 管理主控台 購買容量區塊時，預設平台選項為 Linux/UNIX。當您使用 AWS Command Line Interface (AWS CLI) 或 AWS SDK 購買容量區塊時，可使用下列平台選項：
+ Linux/UNIX
+ Red Hat Enterprise Linux
+ RHEL with HA
+ SUSE Linux
+ Ubuntu Pro

## 考量事項
<a name="capacity-blocks-considerations"></a>

使用容量區塊之前，請考慮下列詳細資訊和限制。
+ 若偵測到影響 UltraServer 容量區塊的損壞，我們會通知您，但通常不會執行動作來終止容量區塊上的執行個體。這樣做是為了最大限度地減少對工作負載的非預期中斷。您可以在收到此通知後繼續使用 UltraServer 容量區塊，或藉由終止容量區塊上的所有執行個體並提交 AWS 支援案例來請求修復。收到您的支援案例之後，我們會在完成修復時通知您，並且您可在 UltraServer 容量區塊上重新啟動執行個體。
+ 若是 `P6e-GB200` UltraServer 容量區塊，必須在容量區塊結束時間之前至少 60 分鐘終止您的執行個體。
+  若要在 Local Zones 中購買和使用容量區塊，您必須選擇加入 Local Zone。
+ 每個容量區塊可包含最多 64 個執行個體，且跨容量區塊可包含最多 256 個執行個體。
+ 您可以描述最快 30 分鐘即可啟動的容量區塊供應項目。
+ 容量區塊在國際標準時間 (UTC) 上午 11 點 30 分結束。
+ 終止容量區塊中執行的執行個體程序會在保留的最後一天國際標準時間 (UTC) 上午 11 點開始。
+ 可以保留最多未來 8 週內的容量區塊。
+ 不可取消容量區塊。
+ UltraServer 容量區塊無法跨 AWS 帳戶或在您的 AWS 組織內共用。
+ 無法[移動](capacity-reservations-move.md)或[分割](capacity-reservations-split.md)容量區塊。
+ 僅 UltraServer 容量區塊可搭配資源群組使用。執行個體容量區塊不可搭配資源群組使用。如需詳細資訊，請參閱[為 UltraServer 容量區塊建立一個資源群組](cb-group.md)。
+ 組織中所有帳戶在容量區塊中可以保留的執行個體總數 AWS ，在特定日期不得超過 256 個執行個體。
+ 若要使用容量區塊，執行個體必須專門鎖定保留 ID。
+ 容量區塊中的執行個體不會計入您的隨需執行個體限制。
+ 對於使用自訂 AMI 的 P5 執行個體，請確保您擁有 [EFA 所需的軟體和設定](gpu-instances-started.md)。
+ 對於 Amazon EKS 受管節點群組，請參閱[使用適用於 ML 的 Amazon EC2 容量區塊建立受管節點群組](https://docs.aws.amazon.com/eks/latest/userguide/capacity-blocks-mng.html)。對於 Amazon EKS 自我管理節點群組，請參閱[使用自我管理節點來運用 ML 容量區塊](https://docs.aws.amazon.com/eks/latest/userguide/capacity-blocks.html)。

## 相關資源
<a name="capacity-blocks-related-resources"></a>

建立容量區塊後，您可以使用容量區塊執行以下操作：
+ 在容量區塊中啟動執行個體。如需詳細資訊，請參閱[使用容量區塊來啟動執行個體](capacity-blocks-launch.md)。
+ 建立 Amazon EC2 Auto Scaling 群組。如需詳細資訊，請參閱「Amazon EC2 Auto Scaling 使用者指南」**的[使用容量區塊處理機器學習工作負載](https://docs.aws.amazon.com/autoscaling/ec2/userguide/launch-template-capacity-blocks.html)。
**注意**  
如果您使用 Amazon EC2 Auto Scaling 或 Amazon EKS，您可以在容量區塊保留開始時排定擴展。透過排程擴展， AWS 會自動為您處理重試，因此您不需要擔心實作重試邏輯來處理暫時性故障。
+  使用 AWS 平行運算服務增強 ML 工作流程。如需詳細資訊，請參閱[AWS 平行運算服務的容量區塊支援](https://aws.amazon.com/blogs/hpc/announcing-capacity-blocks-support-for-aws-parallel-computing-service/)。
+ 使用 增強 ML 工作流程 AWS ParallelCluster。如需詳細資訊，請參閱[使用 增強 ML 工作流程 AWS ParallelCluster 和 ML 的 Amazon EC2 容量區塊](https://aws.amazon.com/blogs/hpc/enhancing-ml-workflows-with-aws-parallelcluster-and-amazon-ec2-capacity-blocks-for-ml/)。

 如需 AWS 平行運算服務的詳細資訊，請參閱[什麼是 AWS 平行運算服務](https://docs.aws.amazon.com/pcs/latest/userguide/what-is-service.html)。

 如需 的詳細資訊 AWS ParallelCluster，請參閱[什麼是 AWS ParallelCluster](https://docs.aws.amazon.com/parallelcluster/latest/ug/what-is-aws-parallelcluster.html) 。