Iceberg テーブルの最適化 - AWS Glue

Iceberg テーブルの最適化

AWS Glue は、AWS 分析エンジンと ETL ジョブで使用される Apache Iceberg テーブルの管理とパフォーマンスを強化するための複数のテーブル最適化オプションをサポートしています。これらのオプティマイザーは、効率的なストレージの使用量、クエリパフォーマンスの向上、効率的なデータ管理を実現します。AWS Glue では、次の 3 種類のテーブルオプティマイザーを使用できます。

  • 圧縮 — データ圧縮では小さなデータファイルを圧縮して、ストレージの使用量を減らし、読み取りパフォーマンスを向上させます。古いデータを削除して、フラグメント化されたデータをより大規模で効率的なファイルに統合するために、データファイルはマージされ、書き換えられます。圧縮は、必要に応じて自動または手動でトリガーするように設定できます。

  • スナップショット保持 — スナップショットは、Iceberg テーブルのタイムスタンプ付きバージョンです。スナップショット保持設定を使用すると、スナップショットを保持する期間と保持するスナップショットの数を強制できます。スナップショット保持オプティマイザーを設定すると、古い不要なスナップショットとその基となる関連付けされたファイルを削除して、ストレージのオーバーヘッドを管理するのに役立ちます。

  • 孤立ファイルの削除 — 孤立ファイルは、Iceberg テーブルメタデータによって参照されなくなったファイルです。これらのファイルは、特にテーブルの削除や ETL ジョブの失敗などのオペレーションの後、時間の経過と共に蓄積される可能性があります。孤立ファイルの削除を有効にすると、AWS Glue はこれらの不要なファイルを定期的に特定して削除できるため、ストレージが解放されます。

AWS Glue コンソール、AWS CLI、または AWS Glue API 操作を使用して、データ カタログ内の個々の Iceberg テーブルに対して、圧縮、スナップショット保持、孤立ファイル削除のオプティマイザーを有効または無効にすることができます。