Amazon EC2 인스턴스 상태 확인
인스턴스 상태 모니터링 작업은 Amazon EC2에서 인스턴스의 애플리케이션 실행에 지장을 줄 수 있는 문제를 발견했을 때 빠르게 확인할 수 있는 방법입니다. Amazon EC2는 실행 중인 모든 EC2 인스턴스에서 자동 확인을 수행하여 하드웨어 및 소프트웨어 문제를 식별합니다. 이러한 상태 확인 결과를 토대로 식별 가능한 특정 문제를 확인할 수 있습니다. 이벤트 상태 데이터는 Amazon EC2가 이미 각 인스턴스 상태(pending
, running
, stopping
등)에 대해 제공하는 정보와 Amazon CloudWatch가 모니터링하는 사용 지표(CPU 사용량, 네트워크 트래픽, 디스크 활동)를 보완합니다.
상태 확인은 1분마다 실행되며 통과 또는 실패 상태를 반환합니다. 모든 검사 결과가 통과인 경우 인스턴스의 전체 상태는 정상으로 표시됩니다. 하나 이상의 검사 결과가 실패인 경우에는 인스턴스의 전체 상태가 손상됨으로 표시됩니다. 상태 확인은 Amazon EC2에 내장된 기능으로 비활성화하거나 삭제할 수 없습니다.
상태 확인이 실패하면 상태 확인에 대한 해당 CloudWatch 지표가 증가합니다. 자세한 내용은 상태 확인 지표 섹션을 참조하세요. 이러한 지표를 사용하여 상태 확인 결과를 기준으로 트리거되는 CloudWatch 경보를 생성할 수 있습니다. 예를 들어 특정 인스턴스의 상태 확인에서 실패 항목이 있을 때 알리는 경보를 생성할 수 있습니다. 자세한 내용은 상태 확인에 실패한 Amazon EC2 인스턴스에 대한 CloudWatch 경보 생성 섹션을 참조하세요.
Amazon EC2 인스턴스를 모니터링하고 기본 문제로 인해 인스턴스가 손상된 경우 인스턴스를 자동으로 복구하는 Amazon CloudWatch 경보를 생성할 수도 있습니다. 자세한 내용은 인스턴스 복원력 섹션을 참조하세요.
상태 확인 유형
상태 확인에는 세 가지 유형이 있습니다.
시스템 상태 확인
시스템 상태 확인은 인스턴스가 실행되는 AWS 시스템을 모니터링합니다. 이러한 확인에서는 복구 시 AWS 개입이 필요한 인스턴스와 관련된 근본적인 문제를 찾아냅니다. 시스템 상태 확인이 실패한 경우, AWS에서 문제를 해결할 때까지 기다리거나 문제를 직접 해결할 수 있습니다. Amazon EBS가 지원하는 인스턴스의 경우, 직접 인스턴스를 중지한 후 시작할 수 있으며 대부분의 경우 이 인스턴스를 새 호스트로 마이그레이션합니다. 인스턴스 스토어 기반 Linux 인스턴스의 경우 인스턴스를 종료하고 교체할 수 있습니다. Windows 인스턴스의 경우 루트 볼륨은 Amazon EBS 볼륨이어야 합니다. 루트 볼륨에는 인스턴스 스토어가 지원되지 않습니다. 인스턴스 스토어 볼륨은 일시적이며 인스턴스가 중지되면 모든 데이터가 손실됩니다.
다음은 시스템 상태 확인의 실패 원인이 되는 몇 가지 문제의 예입니다.
-
네트워크 연결 끊김
-
시스템 전원 중단
-
물리적 호스트의 소프트웨어 문제
-
네트워크 연결성에 영향을 주는 물리적 호스트의 하드웨어 문제
시스템 상태 검사에 실패하면 StatusCheckFailed_System 지표가 증가합니다.
베어 메탈 인스턴스
베어 메탈 인스턴스의 운영 체제에서 다시 시작하는 경우 시스템 상태 확인에서 일시적으로 실패 상태를 반환할 수 있습니다. 인스턴스를 사용할 수 있게 되면 시스템 상태 확인에서 통과 상태를 반환해야 합니다.
인스턴스 상태 확인
인스턴스 상태 검사 개별 인스턴스에 대한 소프트웨어 및 네트워크 구성을 모니터링합니다. Amazon EC2는 네트워크 인터페이스(NIC)로 주소 확인 프로토콜(ARP)을 전송하여 인스턴스의 상태를 확인합니다. 이러한 확인에서는 복구 시 사용자의 개입이 필요한 문제를 찾아냅니다. 인스턴스 상태 확인이 실패할 경우에는 일반적으로 사용자가 인스턴스를 재부팅하거나 인스턴스 구성을 변경하는 등의 방법으로 문제를 직접 해결해야 합니다.
참고
네트워크 구성에 systemd-networkd
를 사용하는 최신 Linux 배포판은 이전 배포판과 다르게 상태 확인을 보고할 수 있습니다. 이러한 유형의 네트워크는 부팅 프로세스 중에 더 일찍 시작되어 인스턴스 상태에 영향을 미칠 수 있는 다른 시작 작업보다 먼저 완료될 수 있습니다. 네트워크 가용성에 따라 달라지는 상태 확인은 다른 태스크가 완료되기 전에 정상 상태를 보고할 수 있습니다.
다음은 인스턴스 상태 확인의 실패 원인이 되는 몇 가지 문제의 예입니다.
-
시스템 상태 확인 실패
-
잘못된 네트워킹 또는 스타트업 구성
-
메모리가 모두 사용됨
-
파일 시스템 손상
-
호환되지 않는 커널
-
[Windows 인스턴스] 인스턴스를 재부팅하는 동안 또는 Windows 인스턴스 스토어 지원 인스턴스가 번들링되는 동안 인스턴스를 다시 사용할 수 있게 될 때까지 인스턴스 상태 확인에서 실패를 보고합니다.
인스턴스 상태 검사에 실패하면 StatusCheckFailed_Instance 지표가 증가합니다.
베어 메탈 인스턴스
베어 메탈 인스턴스의 운영 체제에서 다시 시작하는 경우 인스턴스 상태 확인에서 일시적으로 실패 상태를 반환할 수 있습니다. 인스턴스를 사용할 수 있게 되면 인스턴스 상태 확인에서 통과 상태를 반환해야 합니다.
연결된 EBS 상태 확인
연결된 EBS 상태 확인은 인스턴스에 연결된 Amazon EBS 볼륨이 연결 가능하고 I/O 작업을 완료할 수 있는지 모니터링합니다. StatusCheckFailed_AttachedEBS
지표는 인스턴스에 연결된 하나 이상의 EBS 볼륨이 I/O 작업을 완료할 수 없는 경우 손상을 나타내는 이진 값입니다. 이러한 상태 확인은 컴퓨팅 또는 Amazon EBS 인프라의 근본적인 문제를 감지합니다. 연결된 EBS 상태 확인 지표가 실패하면 AWS에서 문제가 해결될 때까지 기다리거나 영향을 받는 볼륨의 교체 또는 인스턴스 중지 후 재시작 등의 조치를 취할 수 있습니다.
다음은 연결된 EBS 상태 확인의 실패 원인이 되는 몇 가지 문제의 예입니다.
-
EBS 볼륨의 기반이 되는 스토리지 하위 시스템의 하드웨어 또는 소프트웨어 문제
-
EBS 볼륨의 연결성에 영향을 주는 물리적 호스트의 하드웨어 문제
-
인스턴스와 EBS 볼륨 간의 연결 문제
StatusCheckFailed_AttachedEBS
지표를 사용하여 워크로드의 복원성을 개선할 수 있습니다. 이 지표를 사용하여 상태 확인 결과를 기준으로 트리거되는 Amazon CloudWatch 경보를 생성할 수 있습니다. 예를 들어, 장기간의 영향이 감지되면 보조 인스턴스 또는 가용 영역으로 장애 조치할 수 있습니다. 아니면 EBS CloudWatch 지표를 사용하여 연결된 각 볼륨의 I/O 성능을 모니터링하여 손상된 볼륨을 감지하고 교체할 수 있습니다. 워크로드가 인스턴스에 연결된 EBS 볼륨으로 I/O를 구동하지 않고, 연결된 EBS 상태 확인에 장애가 있는 것으로 표시되는 경우, 인스턴스를 중지하고 시작하여 EBS 볼륨의 연결성에 영향을 미치는 물리적 호스트 문제를 해결할 수 있습니다. 자세한 내용은 Amazon CloudWatch metrics for Amazon EBS를 참조하세요.
또한 연결된 EBS 상태 확인 실패를 탐지하도록 Amazon EC2 Auto Scaling 그룹을 구성한 다음, 영향을 받는 인스턴스를 새 인스턴스로 대체할 수 있습니다. 자세한 내용은 Amazon EC2 Auto Scaling 사용 설명서의 손상된 Amazon EBS 볼륨이 있는 Auto Scaling 인스턴스 모니터링 및 교체를 참조하세요.
참고
연결된 EBS 상태 확인 지표는 Nitro 인스턴스에만 사용할 수 있습니다.