大规模运行核对清单 - AWS Batch

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

大规模运行核对清单

在 5 万或更多 vCPU 上运行大型工作负载之前,请考虑以下核对清单。

注意

如果您计划在一百万或更多 vCPU 上运行大量工作负载,或者需要大规模运行的指导,请联系您的 AWS 团队。

  • 查看您的 Amazon EC2 限额 – 在 AWS Management Console 的“服务限额”面板中查看您的 Amazon EC2 限额(也称为限制)。如有必要,可以申请增加您的 Amazon EC2 实例峰值数量的限额。请记住,Amazon EC2 竞价型和 Amazon 按需型实例有单独的限额。有关更多信息,请参阅服务限额入门

  • 验证每个区域的 Amazon Elastic Block Store 限额 – 每个实例对操作系统使用 GP2 或 GP3 卷。默认情况下,每个 AWS 区域 限额为 300TiB。但是,每个实例都使用计数作为此限额的一部分。因此,在验证每个区域的 Amazon Elastic Block Store 限额时,请务必将其考虑在内。如果达到限额,则无法创建更多实例。有关更多信息,请参阅 Amazon Elastic Block Store 端点和限额

  • 使用 Amazon S3 进行存储 – Amazon S3 提供高吞吐量,有助于消除根据每个可用区域中的作业和实例数量来猜测要配置多少存储空间。有关更多信息,请参阅最佳实践设计模式:优化 Amazon S3 性能

  • 逐步扩展以尽早发现瓶颈 – 对于在一百万或更多 vCPU 上运行的作业,从较低的起点开始并逐渐增加,这样您就可以尽早发现瓶颈。例如,首先在 5 万个 vCPU 上运行。然后,将计数增加到 20 万 vCPU,然后增加到 50 万 vCPU,依此类推。换句话说,继续逐渐增加 vCPU 数量,直到达到所需的 vCPU 数量。

  • 监控以尽早发现潜在问题 – 为了避免在大规模运行时出现潜在的中断和问题,请务必同时监控您的应用程序和架构。即使从 1 千个 vCPU 扩展到 5 千个 vCPU,也可能会出现中断。您可以使用 Amazon CloudWatch Logs 来查看日志数据,也可以使用客户端库使用 CloudWatch 嵌入式指标。有关更多信息,请参阅 CloudWatch Logs 代理参考aws-embedded-metrics