Amazon Data Firehose를 사용하여 Apache Iceberg 테이블에 데이터 전송

Apache Iceberg는 빅 데이터 분석을 수행하기 위한 고성능 오픈 소스 테이블 형식입니다. Apache Iceberg는 Amazon S3 데이터 레이크에 SQL 테이블의 안정성과 단순성을 제공하며 Spark, Flink, Trino, Hive 및 Impala와 같은 오픈 소스 분석 엔진이 동일한 데이터로 동시에 작업할 수 있도록 합니다. Apache Iceberg에 대한 자세한 내용은 https://iceberg.apache.org/ 페이지를 참조하세요.

Firehose를 사용하여 Amazon S3의 Apache Iceberg 테이블로 스트리밍 데이터를 직접 전송할 수 있습니다. 이 기능을 사용하면 단일 스트림의 레코드를 다른 Apache Iceberg 테이블로 라우팅할 수 있으며, Apache Iceberg 테이블의 레코드에 삽입, 업데이트, 삭제 작업을 자동으로 적용할 수 있습니다. Firehose는 Iceberg 테이블에 데이터를 정확히 한 번만 전송합니다. 이 기능을 사용하려면 AWS Glue Data Catalog를 사용해야 합니다.

Firehose는 스트리밍 데이터를 Amazon S3 테이블로 직접 전송할 수도 있습니다. Amazon S3 테이블은 대규모 분석 워크로드에 최적화된 스토리지를 제공하며, 쿼리 성능을 지속적으로 개선하고 테이블 형식 데이터의 스토리지 비용을 절감하는 기능을 제공합니다. Apache Iceberg에 대한 기본 지원을 통해 Amazon Athena, Amazon Redshift, Apache Spark 등 인기 있는 쿼리 엔진을 사용하여 Amazon S3의 테이블 형식 데이터를 쿼리할 수 있습니다. Amazon Athena Amazon S3 테이블에 대한 자세한 내용은 Amazon S3 테이블을 참조하세요. Amazon S3 테이블과의 Firehose 통합은 Amazon S3 테이블을 사용할 수 있는 모든 리전에서 미리 볼 수 있습니다. 프로덕션 워크로드에 사용하지 마세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 전송 일시 중지 및 재개

고려 사항 및 제한