圧縮の最適化
Apache Iceberg などのオープンテーブル形式を使用する Amazon S3 データレイクは、データを S3 オブジェクトとして保存します。データレイクテーブルに数千の小さな Amazon S3 オブジェクトがある場合、メタデータのオーバーヘッドが増加し、読み取りパフォーマンスに悪影響が及びます。AWS Glue Data Catalog は Iceberg テーブル用のマネージド圧縮を提供し、小さなオブジェクトを圧縮してより大きなオブジェクトにまとめ、Amazon Athena、Amazon EMR、AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを向上させます。データカタログは、同時クエリに支障をきたすことなく圧縮を実行し、Parquet 形式のテーブルに対してのみ圧縮をサポートしています。
テーブルオプティマイザは、テーブルパーティションを継続的にモニタリングして、ファイル数とファイルサイズがしきい値を超えたときに圧縮プロセスを開始します。
データカタログでは、テーブルまたはテーブル内のパーティションのいずれかに、ターゲットファイルサイズの 75% 未満のファイル (現在は 64 MB に設定) が 5 つ以上ある場合、圧縮プロセスが開始され、続行されます。
サポートされているデータ型、圧縮形式、制限事項については、「マネージドデータ圧縮でサポートされる形式と制限事項 」を参照してください。