대규모 실행을 위한 체크리스트 - AWS Batch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

대규모 실행을 위한 체크리스트

50,000개 이상의 vCPU에서 대규모 워크로드를 실행하기 전에 다음 체크리스트를 고려해 보세요.

참고

백만 개 이상의 vCPU에서 대규모 워크로드를 실행할 계획이거나 대규모로 실행할 지침이 필요한 경우 AWS 팀에 문의하세요.

  • Amazon EC2 할당량 확인하기 — AWS Management Console의 Service Quotas 패널에서 Amazon EC2 할당량(한도라고도 함)을 확인하세요. 필요한 경우 최대 Amazon EC2 인스턴스 수에 대한 할당량 증가를 요청하세요. Amazon EC2 스팟 인스턴스와 Amazon 온디맨드 인스턴스에는 별도의 할당량이 있다는 점을 기억하세요. 자세한 내용은 Service Quotas 시작하기를 참조하세요.

  • 각 리전의 Amazon Elastic Block Store 할당량 확인하기 - 각 인스턴스는 운영 체제용 GP2 또는 GP3 볼륨을 사용합니다. 기본적으로 각 AWS 리전 할당량은 300TiB입니다. 하지만 각 인스턴스는 이 할당량의 일부로 건수를 사용합니다. 따라서 각 리전의 Amazon Elastic Block Store 할당량을 확인할 때 이 점을 고려해야 합니다. 할당량에 도달하면 인스턴스를 더 생성할 수 없습니다. 자세한 내용은 일반 참조에서 Amazon Elastic Block Store 엔드포인트 및 할당량을 참조하세요.

  • 스토리지용 Amazon S3 사용하기 — Amazon S3는 높은 처리량을 제공하며 각 가용 영역의 작업 및 인스턴스 수를 기반으로 프로비저닝할 스토리지의 양을 추측할 필요가 없도록 지원합니다. 자세한 내용은 모범 사례 설계 패턴: Amazon S3 성능 최적화를 참조하세요.

  • 점진적으로 확장하여 조기에 병목 현상 식별하기 - 백만 개 이상의 vCPU에서 실행되는 작업의 경우 병목 현상을 조기에 식별할 수 있도록 낮게 시작하여 점진적으로 늘립니다. 예를 들어 50,000개의 vCPU에서 실행하는 것으로 시작하세요. 그런 다음 개수를 20만 개의 vCPU로 늘리고 그 다음에는 50만 개의 vCPU 등으로 늘립니다. 즉, 원하는 vCPU 수에 도달할 때까지 vCPU 수를 계속 늘립니다.

  • 모니터링하여 조기에 잠재적 문제를 식별하기 - 대규모 실행 시 잠재적인 중단과 문제를 방지하려면 애플리케이션과 아키텍처를 모두 모니터링해야 합니다. 1,000개에서 5,000개까지 vCPU를 확장할 때도 중단이 발생할 수 있습니다. Amazon CloudWatch Logs를 사용하여 로그 데이터를 검토하거나 클라이언트 라이브러리를 사용하여 CloudWatch Embedded Metrics를 사용할 수 있습니다. 자세한 내용은 CloudWatch Logs 에이전트 참조aws-embedded-metrics 섹션을 참조하세요.