의 라우팅 제어 모범 사례 ARC - Amazon Application Recovery Controller(ARC)

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의 라우팅 제어 모범 사례 ARC

에서 라우팅 제어를 위한 복구 및 장애 조치 준비에 대한 다음 모범 사례를 권장합니다ARC.

주제

특별히 구축되고 수명이 긴 AWS 보안 인증 정보를 안전하게 유지하고 항상 액세스 가능

재해 복구(DR) 시나리오에서는 복구 작업에 액세스 AWS 하고 수행하는 간단한 접근 방식을 사용하여 시스템 종속성을 최소화합니다. 특히 DR 작업을 위한 수명이 IAM 긴 보안 인증 정보를 생성하고, 필요할 때 액세스할 수 있도록 보안 인증 정보를 온프레미스 물리적 안전 또는 가상 저장소에 안전하게 보관합니다. 를 사용하면 액세스 키와 같은 보안 자격 증명과 AWS 리소스에 대한 액세스 권한을 중앙에서 관리할 IAM수 있습니다. DR 이외 작업의 경우 AWS Single Sign-On과 같은 AWS 서비스를 사용하여 페더레이션 액세스를 계속 사용하는 것이 좋습니다.

복구 클러스터 데이터 영역 ARC를 사용하여에서 장애 조치 작업을 수행하려면 정책을 사용자에게 연결할 API수 ARC IAM 있습니다. 자세한 내용은 Amazon Application Recovery Controller의 자격 증명 기반 정책 예제(ARC)을 참조하십시오.

장애 조치와 관련된 DNS 레코드에 대해 더 낮은 TTL 값 선택

장애 조치 메커니즘의 일부로 변경해야 할 수 있는 DNS 레코드, 특히 상태가 확인된 레코드의 경우 더 낮은 TTL 값을 사용하는 것이 좋습니다. 이 시나리오TTL에서는를 60초 또는 120초로 설정하는 것이 일반적인 선택입니다.

DNS TTL (실시간) 설정은 새 레코드를 요청하기 전에 레코드를 캐싱하는 시간을 DNS 해석기에 알려줍니다. 를 선택하면 지연 시간과 안정성, 변화에 대한 대응성 간에 균형을 TTL이룰 수 있습니다. 레코드TTL가 짧을수록는 더 자주 쿼리해야 한다고 TTL 지정하므로 DNS 해석기는 레코드에 대한 업데이트를 더 빨리 알 수 있습니다.

자세한 내용은 Amazon Route 53 모범 사례의 DNS 레코드 TTL 값 선택을 참조하세요. DNS

클라이언트가 엔드포인트에 연결된 상태를 유지하는 시간을 제한합니다.

라우팅 제어를 사용하여 한에서 AWS 리전 다른 로 전환하는 경우 Amazon Application Recovery Controller(ARC)가 애플리케이션 트래픽을 이동하는 데 사용하는 메커니즘은 DNS 업데이트입니다. 이 업데이트로 인해 모든 새 연결이 손상된 위치에서 멀어지게 됩니다.

그러나 기존에 열려 있는 연결이 있는 클라이언트는 클라이언트가 다시 연결될 때까지 손상된 위치에 대해 계속 요청할 수 있습니다. 빠른 복구를 위해 클라이언트가 엔드포인트에 연결된 상태를 유지하는 시간을 제한하는 것이 좋습니다.

Application Load Balancer를 사용하는 경우 keepalive 옵션을 사용하여 연결 지속 시간을 구성할 수 있습니다. 자세한 내용은 Application Load Balancer 사용 설명서의 HTTP 클라이언트 유지 기간을 참조하세요.

기본적으로 Application Load Balancer는 HTTP 클라이언트 유지 지속 시간 값을 3600초 또는 1시간으로 설정합니다. 예를 들어 300초와 같이 애플리케이션의 복구 시간 목표에 맞게 값을 낮추는 것이 좋습니다. HTTP 클라이언트 유지 지속 시간을 선택할 때이 값은 일반적으로 더 자주 재연결하는 것 사이의 절충점이며, 이는 지연 시간에 영향을 미칠 수 있으며, 모든 클라이언트를 손상된 AZ 또는 리전에서 더 빠르게 이동시키는 것입니다.

5개의 리전 클러스터 엔드포인트 및 라우팅 제어를 북마크하거나 하드 코딩합니다. ARNs

ARC 리전 클러스터 엔드포인트의 로컬 사본을 북마크에 보관하거나 엔드포인트를 재시도하는 데 사용하는 자동화 코드에 저장하는 것이 좋습니다. 장애 이벤트 중에는 매우 안정적인 데이터 영역 클러스터에서 호스팅되지 않는 API 작업을 포함하여 일부 ARC API 작업에 액세스하지 못할 수 있습니다. DescribeCluster API 작업을 사용하여 ARC 클러스터의 엔드포인트를 나열할 수 있습니다.

임의로 엔드포인트 중 하나를 선택하여 라우팅 제어 상태를 업데이트합니다.

라우팅 제어는 장애를 처리할 때도 고가용성을 보장하기 위해 5개의 리전 엔드포인트를 제공합니다. 완전한 복원력을 얻으려면 필요에 따라 5개의 엔드포인트를 모두 사용할 수 있는 재시도 로직을 사용하는 것이 중요합니다. 클러스터 엔드포인트 시도 예제를 AWS SDK포함하여에서 코드 예제를 사용하는 방법에 대한 자세한 내용은 섹션을 참조하세요를 사용하는 Application Recovery Controller의 코드 예제 AWS SDKs.

매우 안정적인 데이터 영역을 사용하여 콘솔이 아닌 라우팅 제어 상태를 API 나열하고 업데이트합니다.

ARC 데이터 영역를 사용하여 ListRoutingControls 작업과 함께 라우팅 제어 및 상태를 API보고, UpdateRoutingControlState 작업과 함께 장애 조치를 위해 트래픽을 리디렉션하도록 라우팅 제어 상태를 업데이트합니다. AWS CLI (이 예제에서와 같이) 또는 중 하나를 사용하여 작성하는 코드를 사용할 수 있습니다 AWS SDKs.는 데이터 플레인의 API를 사용하여 트래픽 장애 조치를 위한 최고의 안정성을 ARC 제공합니다. 에서 라우팅 제어 상태를 변경하는 API 대신를 사용하는 것이 좋습니다 AWS Management Console.

에 대한 리전 클러스터 엔드포인트 중 하나에 연결하여 데이터 영역를 ARC 사용합니다API. 엔드포인트를 사용할 수 없는 경우 다른 클러스터 엔드포인트로 연결을 시도합니다.

안전 규칙이 라우팅 제어 상태 업데이트를 차단하는 경우 이를 우회하여 업데이트하고 트래픽을 장애 조치할 수 있습니다. 자세한 내용은 안전 규칙을 재정의하여 트래픽 다시 라우팅 단원을 참조하십시오.

를 사용하여 장애 조치 테스트 ARC

기본 애플리케이션 스택에서 보조 애플리케이션 스택으로 장애 조치를 수행하려면 ARC 라우팅 제어를 사용하여 장애 조치를 정기적으로 테스트합니다. 추가한 ARC 구조가 스택의 올바른 리소스와 정렬되고 모든 것이 예상대로 작동하는지 확인하는 것이 중요합니다. 환경에 ARC 맞게 설정한 후 이를 테스트하고, 장애 조치 환경이 준비되도록 정기적으로 테스트를 계속해야 합니다. 사용자의 가동 중지를 방지하기 위해 보조 시스템을 빠르게 설치하고 실행해야 하는 장애 상황이 발생하기 전에는