EventBridge에서 관리형 인스턴스 드레이닝이 작동하는 방식 관리형 인스턴스 드레이닝 문제 해결 Amazon ECS 관리형 인스턴스의 드레이닝 동작

EC2 인스턴스에서 실행되는 Amazon ECS 워크로드를 안전하게 중지

관리형 인스턴스 드레이닝은 Amazon EC2 인스턴스의 정상적인 종료를 지원합니다. 이를 통해 워크로드를 안전하게 중지하고 비종료 인스턴스로 일정을 다시 예약할 수 있습니다. 워크로드 중단에 대한 걱정 없이 인프라 유지 관리 및 업데이트가 수행됩니다. 관리형 인스턴스 드레이닝을 사용하면 Amazon EC2 인스턴스를 교체해야 하는 인프라 관리 워크플로를 간소화하는 동시에, 애플리케이션의 복원력과 가용성을 보장할 수 있습니다.

Amazon ECS 관리형 인스턴스 드레이닝은 Auto Scaling 그룹 인스턴스 교체와 함께 작동합니다. 인스턴스 새로 고침 및 최대 인스턴스 수명을 기준으로 고객은 용량에 대한 최신 OS 및 보안 요구 사항을 계속 준수해나갈 수 있습니다.

관리형 인스턴스 드레이닝은 Amazon ECS 용량 공급자와만 사용할 수 있습니다. Amazon ECS 콘솔, AWS CLI 또는 SDK를 사용하여 Auto Scaling 그룹 용량 공급자를 생성하거나 업데이트할 때 관리형 인스턴스 드레이닝을 켤 수 있습니다.

다음 이벤트는 Amazon ECS 관리형 인스턴스 드레이닝에 포함됩니다.

Auto Scaling 그룹 인스턴스 새로 고침 - Auto Scaling 그룹의 Amazon EC2 인스턴스를 배치 단위로 수동 교체하는 대신 인스턴스 새로 고침을 사용하여 롤링 교체를 수행합니다. 이 방법은 많은 인스턴스를 교체해야 하는 경우에 유용합니다. 인스턴스 새로 고침은 Amazon EC2 콘솔 또는 StartInstanceRefresh API를 통해 시작됩니다. 관리형 종료 보호를 사용하는 경우 StartInstanceRefresh 직접 호출 시 스케일 인 보호를 위해 Replace를 선택해야 합니다.
최대 인스턴스 수명 ‐ Auto Scaling 그룹 인스턴스를 교체할 때 최대 수명을 정의할 수 있습니다. 이는 내부 보안 정책 또는 규정 준수를 기반으로 교체 인스턴스를 예약하는 데 유용합니다.
Auto Scaling 그룹 스케일 인 - 규모 조정 정책 및 예약된 조정 작업에 따라 Auto Scaling 그룹은 인스턴스의 자동 규모 조정을 지원합니다. Auto Scaling 그룹을 Amazon ECS 용량 공급자로 사용하면 실행 중인 태스크가 없을 때 Auto Scaling 그룹 인스턴스를 스케일 인할 수 있습니다.
Auto Scaling 그룹 확인 - Auto Scaling 그룹은 비정상 인스턴스의 종료를 관리하기 위한 많은 상태 확인을 지원합니다.
CloudFormation 스택 업데이트 – CloudFormation 스택에 UpdatePolicy 속성을 추가하여 그룹이 변경될 때 롤링 업데이트를 수행할 수 있습니다.
스팟 용량 재조정 - Auto Scaling 그룹은 Amazon EC2 용량 재조정 알림에 따라 중단 위험이 더 높은 스팟 인스턴스를 사전에 교체하려고 합니다. Auto Scaling 그룹은 교체가 시작되고 정상 상태이면 이전 인스턴스를 종료합니다. Amazon ECS 관리형 인스턴스 드레이닝은 스팟이 아닌 인스턴스를 드레이닝하는 것과 동일한 방식으로 스팟 인스턴스를 드레이닝합니다.
스팟 중단 - 스팟 인스턴스는 2분 알림과 함께 종료됩니다. Amazon ECS 관리형 인스턴스 드레이닝은 이에 대응하여 인스턴스를 드레이닝 상태로 전환합니다.

Amazon EC2 Auto Scaling 수명 주기 후크((관리형 인스턴스 드레이닝 포함)

Auto Scaling 그룹 수명 주기 후크를 사용하면 고객이 인스턴스 수명 주기의 특정 이벤트에 의해 트리거되는 솔루션을 생성하고 해당 특정 이벤트가 발생할 때 사용자 지정 작업을 수행할 수 있습니다. Auto Scaling 그룹은 최대 50개의 후크를 허용합니다. 종료 후크는 여러 개 존재할 수 있고 병렬로 수행되며 Auto Scaling 그룹은 모든 후크가 완료될 때까지 기다렸다가 인스턴스를 종료합니다.

Amazon ECS 관리형 후크 종료 외에도, 고유한 수명 주기 종료 후크를 구성할 수 있습니다. 수명 주기 후크에는 default action이 있으며 Amazon ECS 관리형 후크와 같은 다른 후크가 사용자 지정 후크로 인한 오류의 영향을 받지 않도록 기본값으로 continue를 설정하는 것을 권장합니다.

Auto Scaling 그룹 종료 수명 주기 후크를 이미 구성하고 Amazon ECS 관리형 인스턴스 드레이닝도 활성화한 경우 두 수명 주기 후크가 모두 수행됩니다. 하지만 상대적 타이밍은 보장되지 않습니다. 수명 주기 후크에는 제한 시간이 경과했을 때 수행할 작업을 지정하는 default action 설정이 있습니다. 실패할 경우 사용자 지정 후크의 기본 결과로 continue를 사용하는 것이 좋습니다. 이렇게 하면 다른 후크, 특히 Amazon ECS 관리형 후크가 사용자 지정 수명 주기 후크에서 발생한 오류의 영향을 받지 않습니다. abandon의 대체 결과로 인해 다른 모든 후크를 건너뛰므로, 이는 사용하지 않는 것이 좋습니다. Auto Scaling 그룹 수명 주기 후크에 대한 자세한 내용은 Amazon EC2 Auto Scaling 사용 설명서의 Amazon EC2 Auto Scaling 수명 주기 후크를 참조하세요.

작업 및 관리형 인스턴스 드레이닝

Amazon ECS 관리형 인스턴스 드레이닝은 컨테이너 인스턴스에 있는 기존 드레이닝 기능을 사용합니다. 컨테이너 인스턴스 드레이닝 기능은 Amazon ECS 서비스에 속하는 복제 작업에서 교체를 수행하고 중지합니다. RunTask에 의해 간접적으로 호출되는 것과 같은 PENDING 또는 RUNNING 상태의 독립 실행형 태스크는 영향을 받지 않습니다. 태스크가 수동으로 완료되거나 중지될 때까지 기다려야 합니다. 컨테이너 인스턴스는 모든 작업이 중지되거나 48시간이 경과할 때까지 DRAINING 상태로 남아 있습니다. 모든 복제 작업이 중지된 후 대몬 작업이 마지막으로 중지됩니다.

관리형 인스턴스 드레이닝 및 관리형 종료 보호

관리형 인스턴스 드레이닝은 관리형 종료가 비활성화된 경우에도 작동합니다. 관리형 종료 보호 기능에 대한 자세한 내용은 Amazon ECS가 종료하는 인스턴스 제어 섹션을 참조하세요.

다음 테이블에는 관리형 종료와 관리형 드레이닝의 다양한 조합에 대한 동작이 요약되어 있습니다.

관리형 종료	관리형 드레이닝	결과
활성화됨	활성화됨	Amazon ECS는 작업을 실행 중인 Amazon EC2 인스턴스가 스케일 인 이벤트로 인해 종료되지 않도록 보호합니다. 종료 보호가 설정되지 않거나 스팟 중단이 수신되었거나 인스턴스 새로 고침으로 강제 적용되는 인스턴스와 같이, 종료 중인 모든 인스턴스는 정상적으로 드레이닝됩니다.
비활성	활성화됨	Amazon ECS는 태스크를 실행하는 Amazon EC2 인스턴스의 스케일 인을 차단하지 않습니다. 하지만 종료되는 모든 인스턴스는 정상적으로 드레이닝됩니다.
활성화됨	비활성화됨	Amazon ECS는 작업을 실행 중인 Amazon EC2 인스턴스가 스케일 인 이벤트로 인해 종료되지 않도록 보호합니다. 하지만 스팟 중단 또는 강제 인스턴스 새로 고침으로 인해 또는 실행 중인 작업이 없는 경우에는 여전히 인스턴스가 종료될 수 있습니다. Amazon ECS는 이러한 인스턴스에 대해 정상적인 드레이닝을 수행하지 않으며, 중지된 후 교체 서비스 작업을 시작합니다.
비활성화됨	비활성화됨	Amazon EC2 인스턴스는 Amazon ECS 작업을 실행하는 경우에도 언제든지 스케일 인 또는 종료될 수 있습니다. Amazon ECS는 중지된 후 교체 서비스 작업을 시작합니다.

관리형 인스턴스 드레이닝 및 스팟 인스턴스 드레이닝

스팟 인스턴스 드레이닝을 사용하면 Amazon ECS 에이전트에 ECS_ENABLE_SPOT_INSTANCE_DRAINING 환경 변수를 설정하여 2분간의 스팟 중단에 대응하여 Amazon ECS에서 인스턴스를 드레이닝 상태로 설정할 수 있습니다. Amazon ECS 관리형 인스턴스 드레이닝을 사용하면 스팟 중단뿐 아니라 여러 가지 이유로 종료되는 Amazon EC2 인스턴스의 정상적인 종료를 지원할 수 있습니다. 예를 들어 Amazon EC2 Auto Scaling 용량 재조정을 사용하여 중단 위험이 높은 스팟 인스턴스를 사전에 교체할 수 있으며 관리형 인스턴스 드레이닝은 교체되는 스팟 인스턴스를 정상적으로 종료합니다. 관리형 인스턴스 드레이닝을 사용하는 경우 스팟 인스턴스 드레이닝을 별도로 활성화할 필요가 없으므로 Auto Scaling 그룹 사용자 데이터의 ECS_ENABLE_SPOT_INSTANCE_DRAINING이 중복됩니다. 스팟 인스턴스 드레이닝에 대한 자세한 내용은 스팟 인스턴스 섹션을 참조하세요.

EventBridge에서 관리형 인스턴스 드레이닝이 작동하는 방식

Amazon ECS 관리형 인스턴스 드레이닝 이벤트는 Amazon EventBridge에 게시되며, Amazon ECS는 계정의 기본 버스에서 EventBridge 관리형 규칙을 생성하여 관리형 인스턴스 드레이닝을 지원합니다. Lambda, Amazon SNS 및 Amazon SQS 등의 다른 AWS 서비스로 이러한 이벤트를 필터링하고 문제를 해결할 수 있습니다.

Amazon EC2 Auto Scaling은 수명 주기 후크를 간접적으로 호출할 때 EventBridge에 이벤트를 전송합니다.
스팟 중단 알림은 EventBridge에 게시됩니다.
Amazon ECS는 Amazon ECS 콘솔과 API를 통해 검색할 수 있는 오류 메시지를 생성합니다.
EventBridge에서는 일시적 장애를 완화하기 위한 재시도 메커니즘이 기본 제공됩니다.

Amazon ECS 관리형 인스턴스 드레이닝 문제 해결

관리형 인스턴스 드레이닝 문제를 해결해야 할 수 있습니다. 다음은 사용 중 발생할 수 있는 문제와 그 해결 방법의 예입니다.

Auto Scaling을 사용하는 경우 최대 인스턴스 수명을 초과한 후에도 인스턴스가 종료되지 않습니다.

Auto Scaling 그룹을 사용하는 동안 최대 인스턴스 수명에 도달하거나 초과한 후에도 인스턴스가 종료되지 않으면 스케일 인으로부터 보호되기 때문일 수 있습니다. 관리형 종료를 끄고 관리형 드레이닝을 허용하여 인스턴스 재활용을 처리할 수 있습니다.

Amazon ECS 관리형 인스턴스의 드레이닝 동작

Amazon ECS 관리형 인스턴스 종료는 비용을 최적화하고 시스템 상태를 유지 관리하면서 정상적인 워크로드 전환을 보장합니다. 종료 시스템은 인스턴스 종료에 대한 세 가지 결정 경로를 제공하며, 경로마다 타이밍 특성과 고객 영향 프로파일이 서로 다릅니다.

종료 결정 경로

고객이 시작한 종료: 서비스에서 컨테이너 인스턴스를 즉시 제거해야 하는 경우 인스턴스 제거를 직접 제어합니다. 강제 플래그가 true로 설정된 DeregisterContainerInstance API를 직접 호출합니다. 이는 실행 중인 워크로드에도 불구하고 즉시 종료해야 함을 나타냅니다.
시스템에서 시작한 유휴 종료: Amazon ECS 관리형 인스턴스는 실행 중인 태스크(task)가 없는 유휴 컨테이너 인스턴스를 종료함으로써, 비용을 지속적으로 모니터링하고 선제적으로 최적화합니다. ECS는 컨테이너 인스턴스가 종료되기 전, 새로 시작된 태스크를 할당받을 수 있는 기회를 제공하기 위해 추측성 지연(heuristic delay) 방식을 사용합니다. scaleInAfter Amazon ECS 관리형 인스턴스의 용량 공급자 설정 파라미터를 통해 사용자 지정이 가능합니다.
인프라 새로 고침 종료: Amazon ECS 관리형 인스턴스는 워크로드의 가용성을 유지하는 동시에 보안 및 규정 준수를 보장하기 위해, 관리형 컨테이너 인스턴스의 소프트웨어를 자동으로 관리하고 업데이트합니다. 자세한 내용은 Amazon ECS 관리형 인스턴스의 패치 작업을 참조하세요.

원활한 드레이닝 및 워크로드 마이그레이션

정상적인 드레이닝 시스템은 Amazon ECS 서비스 관리와의 정교한 조정을 구현하여 서비스 관리형 태스크가 종료 예약된 인스턴스에서 적절하게 마이그레이션되도록 합니다.

서비스 태스크 드레이닝 조정

인스턴스가 드레이닝 중 상태로 전환되면 Amazon ECS 스케줄러는 기존 서비스 태스크에 대한 정상적인 종료 절차를 구현하는 동안 인스턴스에 새 태스크 배치를 자동으로 중지합니다. 서비스 태스크 드레이닝에는 최적의 마이그레이션 타이밍과 성공률을 보장하기 위해 서비스 배포 전략, 상태 확인 요구 사항 및 드레이닝 기본 설정과의 조정이 포함됩니다.

독립 실행형 태스크 처리

독립 실행형 태스크는 자동 서비스 관리의 이점을 활용하지 않기 때문에 다른 처리가 필요합니다. 시스템은 태스크 기간 추정치, 완료 확률 분석, 고객 영향 평가를 포함한 독립 실행형 태스크 특성을 평가합니다. 정상적인 완료 전략은 연장된 유예 기간에 독립 실행형 태스크를 자연스럽게 완료할 수 있도록 하는 반면, 강제 종료는 태스크가 자연스럽게 완료되지 않은 경우 허용 가능한 기간에 인프라 새로 고침을 수행하도록 합니다.

2단계 완료 전략

종료 시스템은 인프라 관리 요구 사항과 워크로드 연속성의 균형을 맞추는 2단계 접근 방식을 구현합니다.

1단계: 정상적 완료 기간

이 단계에서 시스템은 워크로드 연속성을 우선하는 적절한 드레이닝 전략을 구현합니다. 서비스 태스크는 정상적인 Amazon ECS 예약 프로세스를 통해 정상적으로 드레이닝되고, 독립 실행형 태스크는 계속 실행되며 자연적으로 완료될 수 있으며, 시스템은 모든 태스크가 자연적인 완료 프로세스를 통해 중지 상태에 도달하는지 모니터링합니다.

2단계: 엄격한 기한 적용

정상적인 완료 시 허용 가능한 기간에 종료 목표를 달성하지 못하면 시스템은 엄격한 기한 적용을 구현합니다. 하드 기한은 일반적으로 드레이닝 시작 시간 + 7일로 설정되어 운영 요구 사항을 유지하면서 정상적으로 완료할 수 있는 상당한 시간을 제공합니다. 적용에는 강제 등록 취소 절차의 자동 간접 호출과 완료 상태에 관계없이 나머지 모든 태스크의 즉각적인 종료가 포함됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

용량 공급자 삭제

인스턴스를 안전하게 종료하도록 Amazon ECS 용량 공급자 구성