Amazon Redshift가 구성된 Amazon RDS 제로 ETL 통합 작업(미리 보기) - Amazon Relational Database Service

Amazon Redshift가 구성된 Amazon RDS 제로 ETL 통합 작업(미리 보기)

이 문서는 미리 보기 릴리스 중이며 Amazon Redshift가 구성된 Amazon RDS 제로 ETL 통합에 대한 미리 보기 릴리스 설명서입니다. 설명서 및 기능은 모두 변경될 수 있습니다. 프로덕션 환경이 아닌 테스트 환경에서만 이 기능을 사용하는 것이 좋습니다. 미리 보기 이용 약관은 AWS 서비스 약관베타 및 미리 보기를 참조하세요.

Amazon Redshift가 구성된 Amazon RDS 제로 ETL 통합을 사용하면Amazon Redshift를 통해 RDS의 페타바이트급 트랜잭션 데이터에 대해 거의 실시간에 가까운 분석 및 기계 학습(ML)을 수행할 수 있습니다. 이 솔루션은 트랜잭션 데이터가 RDS 데이터베이스에 기록된 후 Amazon Redshift에서 사용할 수 있도록 하기 위한 완전관리형 솔루션입니다. 추출, 전환, 적재(ETL)는 여러 소스의 데이터를 데이터 웨어하우스라는 대규모 중앙 리포지토리로 결합하는 프로세스입니다.

제로 ETL 통합을 통해 RDS 데이터베이스의 데이터를 거의 실시간으로 Amazon Redshift에서 사용할 수 있습니다. 데이터가 Amazon Redshift에 저장되면 기계 학습, 구체화된 뷰, 데이터 공유, 여러 데이터 스토어 및 데이터 레이크에 대한 페더레이션 액세스, Amazon SageMaker, Amazon QuickSight 및 기타 AWS 서비스와의 통합과 같은 Amazon Redshift의 내장 기능을 사용하여 분석, ML 및 AI 워크로드를 강화할 수 있습니다.

제로 ETL 통합을 만들려면 RDS 데이터베이스소스로 지정하고 Amazon Redshift 데이터 웨어하우스를 대상으로 지정합니다. 통합은 소스 데이터베이스에서 대상 데이터 웨어하우스로 데이터를 복제합니다.

다음 다이어그램에서 이 기능을 보여줍니다.

제로 ETL 통합

통합은 데이터 파이프라인의 상태를 모니터링하고 가능한 경우 문제로부터 복구합니다. 여러 RDS 데이터베이스를 단일 Amazon Redshift 네임스페이스로 통합하여 여러 애플리케이션에 걸쳐 인사이트를 도출할 수 있습니다.

이점

Amazon Redshift가 구성된 RDS 제로 ETL 통합은 다음과 같은 주요 이점을 제공합니다.

  • 여러 데이터 소스에서 총체적인 인사이트를 도출할 수 있도록 도와줍니다.

  • 추출, 전환, 적재(ETL) 작업을 수행하는 복잡한 데이터 파이프라인을 구축하고 유지 관리할 필요가 없습니다. 제로 ETL 통합은 파이프라인을 프로비저닝하고 관리해 주므로 파이프라인을 구축하고 관리하는 데 따르는 어려움이 발생하지 않습니다.

  • 운영 부담과 비용을 줄이고 애플리케이션 개선에 집중할 수 있습니다.

  • Amazon Redshift의 분석 및 ML 기능을 통해 트랜잭션 및 기타 데이터에서 인사이트를 도출하여 중요하고 시간에 민감한 이벤트에 효과적으로 대응할 수 있습니다.

주요 개념

제로 ETL 통합을 시작할 때는 다음 개념을 고려하세요.

통합

RDS 데이터베이스에서 Amazon Redshift 데이터 웨어하우스로 트랜잭션 데이터 및 스키마를 자동으로 복제하는 완전관리형 데이터 파이프라인입니다.

소스 데이터베이스

데이터가 복제되는 RDS 데이터베이스입니다. 단일 AZ 또는 다중 AZ DB 인스턴스를 지정할 수 있습니다.

대상 데이터 웨어하우스

데이터가 복제되는 Amazon Redshift 데이터 웨어하우스입니다. 데이터 웨어하우스에는 프로비저닝된 클러스터 데이터 웨어하우스와 서버리스 데이터 웨어하우스라는 2가지 유형이 있습니다. 프로비저닝된 클러스터 데이터 웨어하우스는 노드라고 하는 컴퓨팅 리소스의 모음으로, 노드는 클러스터라고 하는 그룹을 구성합니다. 서버리스 데이터 웨어하우스는 컴퓨팅 리소스를 저장하는 작업 그룹과 데이터베이스 객체 및 사용자를 수용하는 네임스페이스로 구성됩니다. 두 데이터 웨어하우스 모두 Amazon Redshift 엔진을 실행하며 하나 이상의 데이터베이스를 포함합니다.

여러 소스 데이터베이스가 동일한 대상에 쓸 수 있습니다.

자세한 내용은 Amazon Redshift 개발자 안내서데이터 웨어하우스 시스템 아키텍처를 참조하세요.

미리 보기 제한 사항

다음 제한 사항은 Amazon Redshift가 구성된 RDS 제로 ETL 통합에 적용됩니다.

일반 제한 사항

  • 소스 데이터베이스는 대상 Amazon Redshift 데이터 웨어하우스와 동일한 리전에 있어야 합니다.

  • 기존 통합이 있는 경우 데이터베이스의 이름을 변경할 수 없습니다.

  • 기존 통합이 있는 데이터베이스는 삭제할 수 없습니다. 먼저 연결된 모든 통합을 삭제해야 합니다.

  • 소스 데이터베이스를 중지하면 데이터베이스를 다시 시작할 때까지 마지막 몇 개의 트랜잭션이 대상 데이터 웨어하우스에 복제되지 않을 수 있습니다.

  • 소스 데이터베이스가 중지된 경우 통합을 삭제할 수 없습니다.

  • Amazon RDS는 단일 AZ 및 다중 AZ DB 인스턴스 배포만 통합 소스로 지원합니다. 현재 다중 AZ DB 클러스터를 지원하지 않습니다.

  • 제로 ETL 통합은 현재 데이터 필터링을 지원하지 않습니다.

  • 데이터베이스가 블루/그린 배포의 소스인 경우 블루 및 그린 환경은 전환 중에 기존의 제로 ETL 통합을 가질 수 없습니다. 먼저 통합을 삭제하고 전환한 다음 다시 만들어야 합니다.

  • 다른 통합이 활발하게 생성되고 있는 소스 데이터베이스에 대해 통합을 생성할 수 없습니다.

  • 처음에 통합을 생성하거나 테이블을 재동기화할 때는 소스 데이터베이스의 크기에 따라 소스에서 대상으로 데이터를 시드하는 데 20~25분 이상 걸릴 수 있습니다. 이러한 지연으로 인해 복제 지연이 증가할 수 있습니다.

  • 일부 데이터 유형은 지원되지 않습니다. 자세한 내용은 RDS와 Amazon Redshift 데이터베이스 간의 데이터 유형 차이 단원을 참조하십시오.

  • 사전 정의된 테이블 업데이트가 포함된 외래 키 참조는 지원되지 않습니다. 특히, CASCADE, SET NULL, SET DEFAULT 작업에서는 ON DELETEON UPDATE 규칙이 지원되지 않습니다. 다른 테이블에 대한 이러한 참조가 포함된 테이블을 만들거나 업데이트하려고 하면 테이블이 실패 상태가 됩니다.

  • ALTER TABLE 파티션 작업에서는 RDS에서 Amazon Redshift로 데이터를 다시 로드하기 위해 표가 다시 동기화됩니다. 테이블을 재동기화하는 동안에는 테이블을 쿼리할 수 없습니다. 자세한 내용은 Amazon Redshift 테이블 중 하나 이상을 재동기화해야 합니다 단원을 참조하십시오.

  • XA 트랜잭션은 지원되지 않습니다.

  • 객체 식별자(데이터베이스 이름, 테이블 이름, 열 이름 등)에는 영숫자, 숫자, $ 및 _(밑줄)만 포함할 수 있습니다.

RDS for MySQL 제한 사항

  • 소스 데이터베이스가 RDS for MySQL 버전 8.0.32 이상을 실행하고 있어야 합니다.

  • 제로 ETL 통합은 진행 중인 데이터 변경 사항을 캡처하기 위해 MySQL 바이너리 로깅(binlog)에 의존합니다. binlog 기반 데이터 필터링을 사용하면 소스 데이터베이스와 대상 데이터베이스 간에 데이터 불일치가 발생할 수 있으므로 사용하지 않는 것이 좋습니다.

  • RDS for MySQL 시스템 테이블, 임시 테이블 및 뷰는 Amazon Redshift에 복제되지 않습니다.

  • 제로 ETL 통합은 InnoDB 스토리지 엔진을 사용하도록 구성된 데이터베이스에만 지원됩니다.

  • 소스 DB 클러스터는 인증 기관(CA) rds-ca-ecc384-g1로 구성할 수 없습니다.

Amazon Redshift 제한 사항

제로 ETL 통합과 관련된 Amazon Redshift 제한 사항 목록은 Amazon Redshift 관리 가이드의 고려 사항을 참조하세요.

할당량

계정에는 Amazon Redshift가 구성된 RDS 제로 ETL 통합과 관련된 다음과 같은 할당량이 있습니다. 각 할당량은 달리 지정되지 않는 한 리전별로 적용됩니다.

명칭 기본값 설명
통합 100 AWS 계정 내 총 통합 수입니다.
대상 데이터 웨어하우스별 통합 수 50 단일 대상 Amazon Redshift 데이터 웨어하우스로 데이터를 보내는 통합 수입니다.
소스 인스턴스별 통합 단일 소스 DB 인스턴스에서 데이터를 보내는 통합 수입니다.

또한 Amazon Redshift는 각 DB 인스턴스 또는 클러스터 노드에 허용되는 테이블 수에 구체적인 제한을 두고 있습니다. 자세한 내용은 Amazon Redshift 관리 가이드Amazon Redshift의 할당량 및 제한 섹션을 참조하세요.

지원되는 리전

Amazon Redshift가 구성된 RDS 제로 ETL 통합은 일부 AWS 리전에서 사용할 수 있습니다. 지원되는 리전 목록은 Amazon Redshift와 Amazon RDS 제로 ETL 통합을 지원하는 리전 및 DB 엔진 섹션을 참조하세요.