本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
大規模執行的檢查清單
在 5 萬個或更多 vCPUs 上執行大型工作負載之前,請考慮下列檢查清單。
注意
如果您計劃在數百萬個以上的 vCPUs上執行大型工作負載,或需要大規模執行的指導,請聯絡您的 AWS 團隊。
-
檢查您的 Amazon EC2 配額 – 在 Service Quotas面板中檢查您的 Amazon EC2 配額 (也稱為限制) AWS Management Console。如有必要,請為您的 Amazon EC2 執行個體尖峰數量請求增加配額。請記住,Amazon EC2 Spot 和 Amazon 隨需執行個體有不同的配額。如需詳細資訊,請參閱 Service Quotas 入門。
-
驗證每個區域的 Amazon Elastic Block Store 配額 – 每個執行個體都會使用作業系統的 GP2 或 GP3 磁碟區。根據預設,每個 的配額 AWS 區域 為 300 TiB。不過,每個執行個體都會使用計數做為此配額的一部分。因此,當您驗證每個區域的 Amazon Elastic Block Store 配額時,請務必將其納入考量。如果達到配額,則無法建立更多執行個體。如需詳細資訊,請參閱 Amazon Elastic Block Store 端點和配額
-
使用 Amazon S3 進行儲存 – Amazon S3 提供高輸送量,有助於根據每個可用區域中的任務和執行個體數量,免除對要佈建的儲存量的猜測。如需詳細資訊,請參閱最佳實務設計模式:最佳化 Amazon S3 效能。
-
逐步擴展以提早識別瓶頸 – 對於在數百萬個或更多 vCPUs上執行的任務,請開始降低並逐步增加,以便您可以提早識別瓶頸。例如,從在 5 萬個 vCPUs 上執行開始。然後,將計數增加到 20 萬個 vCPUs,然後增加到 50 萬vCPUs,以此類推。換言之,請繼續逐漸增加 vCPU 計數,直到您達到所需的 vCPUs 數量。
-
及早監控以識別潛在問題 – 為了避免大規模執行時的潛在中斷和問題,請務必同時監控您的應用程式和架構。即使從 1000 擴展到 5000 個 vCPUs,也可能發生中斷。您可以使用 Amazon CloudWatch Logs 檢閱日誌資料,或使用用戶端程式庫的 CloudWatch Embedded Metrics。如需詳細資訊,請參閱 CloudWatch Logs 代理程式參考和
aws-embedded-metrics