大规模运行核对清单

在 5 万或更多 vCPU 上运行大型工作负载之前，请考虑以下核对清单。

注意

如果您计划在一百万或更多 vCPU 上运行大量工作负载，或者需要大规模运行的指导，请联系您的团队。 AWS

查看您的 Amazon EC2 限额 – 在 AWS 管理控制台的“服务限额”面板中查看您的 Amazon EC2 限额（也称为限制）。如有必要，可以申请增加您的 Amazon EC2 实例峰值数量的限额。请记住，Amazon EC2 Spot 和 Amazon On-Demand 实例有单独的配额。有关更多信息，请参阅服务限额入门。
验证每个区域的 Amazon Elastic Block Store 限额 – 每个实例对操作系统使用 GP2 或 GP3 卷。默认情况下，每个 AWS 区域限额为 300TiB。但是，每个实例都使用计数作为此限额的一部分。因此，在验证每个区域的 Amazon Elastic Block Store 限额时，请务必将其考虑在内。如果达到限额，则无法创建更多实例。有关更多信息，请参阅 Amazon Elastic Block Store 端点和限额
使用 Amazon S3 进行存储 – Amazon S3 提供高吞吐量，有助于消除根据每个可用区域中的作业和实例数量来猜测要配置多少存储空间。有关更多信息，请参阅最佳实践设计模式：优化 Amazon S3 性能。
逐步扩展以尽早发现瓶颈 – 对于在一百万或更多 vCPU 上运行的作业，从较低的起点开始并逐渐增加，这样您就可以尽早发现瓶颈。例如，首先在 5 万个 vCPU 上运行。然后，将计数增加到 20 万 vCPU，然后增加到 50 万 vCPU，依此类推。换句话说，继续逐渐增加 vCPU 数量，直到达到所需的 vCPU 数量。
监控以尽早发现潜在问题 – 为了避免在大规模运行时出现潜在的中断和问题，请务必同时监控您的应用程序和架构。即使从 1 千个 vCPU 扩展到 5 千个 vCPU，也可能会出现中断。您可以使用 Amazon Log CloudWatch s 查看日志数据，也可以使用客户端库使用 CloudWatch 嵌入式指标。有关更多信息，请参阅CloudWatch 日志代理参考和 aws-embedded-metrics

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

何时使用 AWS Batch

优化容器和 AMI