Amazon Data Firehose を使用して Apache Iceberg テーブルにデータを配信する - Amazon Data Firehose

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Data Firehose を使用して Apache Iceberg テーブルにデータを配信する

Apache Iceberg は、ビッグデータ分析を実行するための高性能オープンソーステーブル形式です。Apache Iceberg は、SQL テーブルの信頼性とシンプルさを Amazon S3 データレイクにもたらし、Spark、Flink、Trino、Hive、Impala などのオープンソースの分析エンジンが同じデータを同時に操作できるようにします。Apache Iceberg の詳細については、「https://iceberg.apache.org/」を参照してください。

Firehose を使用して、Amazon S3 の Apache Iceberg テーブルにストリーミングデータを配信できます。この機能を使用すると、単一のストリームから異なる Apache Iceberg テーブルにレコードをルーティングし、Apache Iceberg テーブルのレコードに対して、挿入、更新、削除オペレーションを自動的に適用できます。Firehose は、Iceberg テーブルに 1 回だけ配信します。この機能を使用するには、 AWS Glue Data Catalogを使用する必要があります。

Firehose は、ストリーミングデータを Amazon S3 テーブルに配信することもできます。Amazon S3 テーブルは、大規模な分析ワークロードに最適化されたストレージを提供します。また、クエリのパフォーマンスを継続的に向上させ、表形式データのストレージコストを削減する機能を備えています。Apache Iceberg の組み込みサポートにより、Amazon S3 の表形式データをクエリできます。 Amazon Athena Amazon S3 テーブルの詳細については、Amazon S3テーブル」を参照してください。Firehose と Amazon S3 テーブルの統合は、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン) の各リージョンでプレビュー中です。本番稼働用ワークロードには使用しないでください。

Amazon S3 テーブルの場合、Firehose はテーブルの自動作成をサポートしていません。Firehose ストリームを作成する前に、S3 テーブルを作成する必要があります。