Amazon Redshift가 구성된 Aurora 제로 ETL 통합 작업
Amazon Redshift가 구성된 Aurora 제로 ETL 통합을 사용하면Amazon Redshift를 통해 Aurora의 페타바이트급 트랜잭션 데이터에 대해 거의 실시간에 가까운 분석 및 기계 학습(ML)을 수행할 수 있습니다. 이 솔루션은 트랜잭션 데이터가 Aurora DB 클러스터에 기록된 후 Amazon Redshift에서 사용할 수 있도록 하기 위한 완전관리형 솔루션입니다. 추출, 전환, 적재(ETL)는 여러 소스의 데이터를 데이터 웨어하우스라는 대규모 중앙 리포지토리로 결합하는 프로세스입니다.
제로 ETL 통합을 통해 Aurora DB 클러스터의 데이터를 거의 실시간으로 Amazon Redshift에서 사용할 수 있습니다. 데이터가 Amazon Redshift에 저장되면 기계 학습, 구체화된 뷰, 데이터 공유, 여러 데이터 스토어 및 데이터 레이크에 대한 페더레이션 액세스, Amazon SageMaker, Amazon QuickSight 및 기타 AWS 서비스와의 통합과 같은 Amazon Redshift의 내장 기능을 사용하여 분석, ML 및 AI 워크로드를 강화할 수 있습니다.
제로 ETL 통합을 만들려면 Aurora DB 클러스터를 소스로 지정하고 Amazon Redshift 데이터 웨어하우스를 대상으로 지정합니다. 통합은 소스 데이터베이스에서 대상 데이터 웨어하우스로 데이터를 복제합니다.
다음 다이어그램에서 이 기능을 보여줍니다.
통합은 데이터 파이프라인의 상태를 모니터링하고 가능한 경우 문제로부터 복구합니다. 여러 Aurora DB 클러스터를 단일 Amazon Redshift 네임스페이스로 통합하여 여러 애플리케이션에 걸쳐 인사이트를 도출할 수 있습니다.
제로 ETL 통합 요금에 대한 자세한 내용은 Amazon Aurora 요금
주제
- 이점
- 주요 개념
- 제한 사항
- 할당량
- 지원되는 리전
- Amazon Redshift가 구성된 Aurora 제로 ETL 통합 시작하기
- Amazon Redshift가 구성된 Amazon Aurora 제로 ETL 통합 생성
- Amazon Redshift와 Aurora 제로 ETL 통합의 데이터 필터링
- 소스 Aurora DB 클러스터에 데이터 추가 및 Amazon Redshift에서 쿼리
- Amazon Redshift가 구성된 Aurora 제로 ETL 통합 확인 및 모니터링
- Amazon Redshift가 구성된 Amazon Aurora 제로 ETL 통합 수정
- Amazon Redshift가 구성된 Aurora 제로 ETL 통합 삭제
- Amazon Redshift가 구성된 Aurora 제로 ETL 통합 문제 해결
이점
Amazon Redshift가 구성된 Aurora 제로 ETL 통합은 다음과 같은 주요 이점을 제공합니다.
-
여러 데이터 소스에서 총체적인 인사이트를 도출할 수 있도록 도와줍니다.
-
추출, 전환, 적재(ETL) 작업을 수행하는 복잡한 데이터 파이프라인을 구축하고 유지 관리할 필요가 없습니다. 제로 ETL 통합은 파이프라인을 프로비저닝하고 관리해 주므로 파이프라인을 구축하고 관리하는 데 따르는 어려움이 발생하지 않습니다.
-
운영 부담과 비용을 줄이고 애플리케이션 개선에 집중할 수 있습니다.
-
Amazon Redshift의 분석 및 ML 기능을 통해 트랜잭션 및 기타 데이터에서 인사이트를 도출하여 중요하고 시간에 민감한 이벤트에 효과적으로 대응할 수 있습니다.
주요 개념
제로 ETL 통합을 시작할 때는 다음 개념을 고려하세요.
- 통합
-
Aurora DB 클러스터에서 Amazon Redshift 데이터 웨어하우스로 트랜잭션 데이터 및 스키마를 자동으로 복제하는 완전관리형 데이터 파이프라인입니다.
- 소스 DB 클러스터
-
데이터가 복제되는 Aurora DB 클러스터입니다. Aurora MySQL의 경우 프로비저닝된 DB 인스턴스 또는 Aurora Serverless v2 DB 인스턴스를 소스로 사용하는 DB 클러스터를 지정할 수 있습니다. Aurora PostgreSQL 미리 보기의 경우 프로비저닝된 DB 인스턴스를 사용하는 클러스터만 지정할 수 있습니다.
- 대상 데이터 웨어하우스
-
데이터가 복제되는 Amazon Redshift 데이터 웨어하우스입니다. 데이터 웨어하우스에는 프로비저닝된 클러스터 데이터 웨어하우스와 서버리스 데이터 웨어하우스라는 2가지 유형이 있습니다. 프로비저닝된 클러스터 데이터 웨어하우스는 노드라고 하는 컴퓨팅 리소스의 모음으로, 노드는 클러스터라고 하는 그룹을 구성합니다. 서버리스 데이터 웨어하우스는 컴퓨팅 리소스를 저장하는 작업 그룹과 데이터베이스 객체 및 사용자를 수용하는 네임스페이스로 구성됩니다. 두 데이터 웨어하우스 모두 Amazon Redshift 엔진을 실행하며 하나 이상의 데이터베이스를 포함합니다.
여러 소스 DB 클러스터가 동일한 대상에 쓸 수 있습니다.
자세한 내용은 Amazon Redshift 개발자 안내서의 데이터 웨어하우스 시스템 아키텍처를 참조하세요.
제한 사항
다음 제한 사항은 Amazon Redshift가 구성된 Aurora 제로 ETL 통합에 적용됩니다.
일반 제한 사항
-
소스 DB 클러스터는 대상 Amazon Redshift 데이터 웨어하우스와 동일한 리전에 있어야 합니다.
-
기존 통합이 있는 경우 DB 클러스터 또는 해당 인스턴스의 이름을 변경할 수 없습니다.
-
동일한 소스 데이터베이스와 대상 데이터베이스 간에 여러 통합을 만들 수 없습니다.
-
기존 통합이 있는 DB 클러스터는 삭제할 수 없습니다. 먼저 연결된 모든 통합을 삭제해야 합니다.
-
소스 DB 클러스터를 중지하면 클러스터를 다시 시작할 때까지 마지막 몇 개의 트랜잭션이 대상 데이터 웨어하우스에 복제되지 않을 수 있습니다.
-
클러스터가 블루/그린 배포의 소스인 경우 블루 및 그린 환경은 전환 중에 기존의 제로 ETL 통합을 가질 수 없습니다. 먼저 통합을 삭제하고 전환한 다음 다시 만들어야 합니다.
-
DB 클러스터가 통합의 소스가 되려면 DB 인스턴스가 하나 이상 있어야 합니다.
-
소스 클러스터가 Aurora 글로벌 데이터베이스의 기본 DB 클러스터이고 이 클러스터가 보조 클러스터 중 하나로 장애 조치되는 경우 통합이 비활성화됩니다. 통합을 삭제하고 다시 만들어야 합니다.
-
다른 통합이 활발하게 생성되고 있는 소스 데이터베이스에 대해 통합을 생성할 수 없습니다.
-
처음에 통합을 생성하거나 테이블을 재동기화할 때는 소스 데이터베이스의 크기에 따라 소스에서 대상으로 데이터를 시드하는 데 20~25분 이상 걸릴 수 있습니다. 이러한 지연으로 인해 복제 지연이 증가할 수 있습니다.
-
일부 데이터 유형은 지원되지 않습니다. 자세한 내용은 Aurora와 Amazon Redshift 데이터베이스 간의 데이터 유형 차이 단원을 참조하십시오.
-
XA 트랜잭션은 지원되지 않습니다.
-
객체 식별자(데이터베이스 이름, 테이블 이름, 열 이름 등)에는 영숫자, 숫자, $ 및 _(밑줄)만 포함할 수 있습니다.
-
시스템 테이블, 임시 테이블 및 뷰는 Amazon Redshift에 복제되지 않습니다.
Aurora MySQL 제한 사항
-
소스 DB 클러스터는 지원되는 Aurora MySQL 버전을 실행해야 합니다. 지원되는 버전 목록은 Amazon Redshift와 제로 ETL 통합을 지원하는 리전 및 Aurora DB 엔진 섹션을 참조하세요.
-
제로 ETL 통합은 진행 중인 데이터 변경 사항을 캡처하기 위해 MySQL 바이너리 로깅(binlog)에 의존합니다. binlog 기반 데이터 필터링을 사용하면 소스 데이터베이스와 대상 데이터베이스 간에 데이터 불일치가 발생할 수 있으므로 사용하지 않는 것이 좋습니다.
-
제로 ETL 통합은 InnoDB 스토리지 엔진을 사용하도록 구성된 데이터베이스에만 지원됩니다.
-
사전 정의된 테이블 업데이트가 포함된 외래 키 참조는 지원되지 않습니다. 특히,
CASCADE
,SET NULL
,SET DEFAULT
작업에서는ON DELETE
및ON UPDATE
규칙이 지원되지 않습니다. 다른 테이블에 대한 이러한 참조가 포함된 테이블을 만들거나 업데이트하려고 하면 테이블이 실패 상태가 됩니다. -
ALTER TABLE
파티션 작업에서는 Aurora에서 Amazon Redshift로 데이터를 다시 로드하기 위해 표가 다시 동기화됩니다. 테이블을 재동기화하는 동안에는 테이블을 쿼리할 수 없습니다. 자세한 내용은 Amazon Redshift 테이블 중 하나 이상을 재동기화해야 합니다 단원을 참조하십시오.
Aurora PostgreSQL 미리 보기 제한
중요
미리 보기 종료: Amazon Redshift가 구성된 Aurora PostgreSQL 제로 ETL 통합 미리 보기가 종료되었습니다. 참여와 피드백에 감사드립니다. 이 기능의 가용성 및 개선 사항에 대한 추가 업데이트를 계속 지켜봐 주시기 바랍니다.
-
소스 DB 클러스터는 Aurora PostgreSQL(PostgreSQL 15.4 및 제로 ETL 지원과 호환)을 실행해야 합니다.
-
미국 동부(오하이오)(us-east-2) AWS 리전의 Amazon RDS 데이터베이스 미리 보기 환경
에서만 Aurora PostgreSQL에 대한 제로 ETL 통합을 생성하고 관리할 수 있습니다. 미리 보기 환경을 사용하여 PostgreSQL 데이터베이스 엔진 소프트웨어의 베타, 릴리스 후보 및 초기 프로덕션 버전을 테스트할 수 있습니다. -
AWS Management Console을 통해서만 Aurora PostgreSQL 통합을 생성하고 관리할 수 있습니다. AWS Command Line Interface(AWS CLI), Amazon RDS API 또는 AWS SDK는 사용할 수 없습니다.
-
소스 DB 클러스터를 생성할 때 선택한 파라미터 그룹에 필요한 DB 클러스터 파라미터 값이 이미 구성되어 있어야 합니다. 나중에 새 파라미터 그룹을 만든 다음 클러스터와 연결할 수는 없습니다. 필수 파라미터 목록은 1단계: 사용자 지정 DB 클러스터 파라미터 그룹 생성 섹션을 참조하세요.
-
통합은 생성한 후에는 수정할 수 없습니다. 특정 설정을 변경해야 하는 경우 통합을 삭제하고 다시 생성해야 합니다.
-
현재 통합의 소스인 Aurora PostgreSQL DB 클러스터는 논리적 복제 데이터의 가비지 수집을 수행하지 않습니다.
-
소스 Aurora PostgreSQL DB 클러스터 내에서 생성되는 모든 데이터베이스는 UTF-8 인코딩을 사용해야 합니다.
-
Aurora PostgreSQL과의 제로 ETL 통합은 다음을 지원하지 않습니다.
-
Aurora Serverless v2 DB 인스턴스. 소스 DB 클러스터는 프로비저닝된 DB 인스턴스를 사용해야 합니다.
-
사용자 지정 데이터 유형 또는 확장에서 생성한 데이터 유형.
-
소스 DB 클러스터의 하위 트랜잭션
. -
소스 DB 클러스터 내 스키마 또는 데이터베이스 이름 변경.
-
DB 클러스터 스냅샷에서 복원하거나 Aurora 클론을 사용하여 소스 DB 클러스터 생성. 기존 데이터를 미리 보기 클러스터로 가져오려면
pg_dump
또는pg_restore
유틸리티를 사용해야 합니다. -
소스 DB 클러스터의 라이터 인스턴스에 논리적 복제 슬롯 생성.
-
오버사이즈 속성 저장 기법(TOAST)이 필요한 대규모 필드 값.
-
ALTER TABLE
파티션 작업. 이러한 작업으로 인해 표가 재동기화되고 결국에는Failed
상태가 될 수 있습니다. 표에 오류가 발생하면 표를 삭제하고 다시 만들어야 합니다.
-
Amazon Redshift 제한 사항
제로 ETL 통합과 관련된 Amazon Redshift 제한 사항 목록은 Amazon Redshift 관리 가이드의 고려 사항을 참조하세요.
할당량
계정에는 Amazon Redshift가 구성된 Aurora 제로 ETL 통합과 관련된 다음과 같은 할당량이 있습니다. 각 할당량은 달리 지정되지 않는 한 리전별로 적용됩니다.
명칭 | 기본값 | 설명 |
---|---|---|
통합 | 100 | AWS 계정 내 총 통합 수입니다. |
대상 데이터 웨어하우스별 통합 수 | 50 | 단일 대상 Amazon Redshift 데이터 웨어하우스로 데이터를 보내는 통합 수입니다. |
소스 클러스터별 통합 | Aurora MySQL의 경우 5, Aurora PostgreSQL의 경우 1 | 단일 소스 DB 클러스터에서 데이터를 보내는 통합 수입니다. |
또한 Amazon Redshift는 각 DB 인스턴스 또는 클러스터 노드에 허용되는 테이블 수에 구체적인 제한을 두고 있습니다. 자세한 내용은 Amazon Redshift 관리 가이드의 Amazon Redshift의 할당량 및 제한 섹션을 참조하세요.
지원되는 리전
Amazon Redshift가 구성된 Aurora 제로 ETL 통합은 일부 AWS 리전에서 사용할 수 있습니다. 지원되는 리전 목록은 Amazon Redshift와 제로 ETL 통합을 지원하는 리전 및 Aurora DB 엔진 섹션을 참조하세요.