考慮事項と制限事項 - AWS Glue

考慮事項と制限事項

このセクションでは、AWS Glue Data Catalog 内でテーブルオピマイザを使用する際に考慮すべき点について説明します。

マネージドデータ圧縮でサポートされる形式と制限事項

データ圧縮は、暗号化されたテーブルからのデータの読み取りなど、データの読み書きのためのさまざまなデータ型と圧縮形式をサポートしています。

データ圧縮は次をサポートします。

  • ファイルタイプ – Parquet

  • データ型 - ブール、整数、長整数、浮動小数点、倍精度浮動小数点数、文字列、10 進数、日付、時刻、タイムスタンプ、文字列、UUID、バイナリ

  • 圧縮 - zstd、gzip、snappy、非圧縮

  • 暗号化 - データ圧縮では、デフォルトの Amazon S3 暗号化 (SSE-S3) とサーバー側 KMS 暗号化 (SSE-KMS) のみがサポートされます。

  • ビンパック圧縮

  • スキーマ進化

  • ターゲットファイルサイズ (Iceberg 設定の write.target-file-size-bytes プロパティ) が最大 64 MB のテーブル

  • 基礎となるデータを保存する Amazon S3 バケットが別のアカウントにある場合、データカタログが存在するアカウントから圧縮を実行できます。これを実行するには、圧縮ロールが Amazon S3 バケットにアクセスできる必要があります。

データ圧縮は現在、次をサポートしていません。

  • ファイルタイプ – Avro、ORC

  • データ型 - 固定小数点

  • 圧縮 - brotli、lz4

  • パーティションの仕様が進化する中でのファイルの圧縮

  • 通常の並べ替えまたは Z オーダーの並べ替え

  • ファイルのマージまたは削除 - 圧縮プロセスでは、削除ファイルが関連付けられているデータファイルはスキップされます。

  • クロスアカウントテーブルでの圧縮 - クロスアカウントテーブルでは圧縮を実行できません。

  • クロスリージョンテーブルでの圧縮 - クロスリージョンテーブルでは圧縮を実行できません。

  • リソースのリンクでの圧縮の有効化

  • Amazon S3 バケットの VPC エンドポイント

  • DynamoDB ロックマネージャー – データ圧縮を使用する場合、他のデータロードジョブで org.apache.iceberg.aws.dynamodb.DynamoDbLockManager として lock-impl を使用しないでください。

スナップショット保持と孤立ファイル削除オプティマイザに関する考慮事項

スナップショット保持と孤立ファイル削除のオプティマイザーには、次の考慮事項が適用されます。

  • スナップショットの保持と孤立ファイルの削除プロセスでは、実行ごとに最大 1,000,000 個のファイルを削除できます。期限切れのスナップショットを削除するときに、削除の対象となるファイルの数が 1,000,000 を超えると、そのしきい値を超える残りのファイルは、孤立ファイルとしてテーブルストレージに引き続き存在します。

  • スナップショットは、保持するスナップショットの最小数と指定された保持期間という両方の基準が満たされた場合にのみ、スナップショット保持オプティマイザによって保持されます。

  • スナップショット保持オプティマイザは、Apache Iceberg から期限切れのスナップショットメタデータを削除し、期限切れのスナップショットのタイムトラベルクエリを防ぎ、オプションで関連するデータファイルを削除します。

  • オーファンファイル削除オプティマイザは、作成時間がオプティマイザ実行時からオーファンファイル削除保持期間より前である場合、Iceberg メタデータによって参照されなくなった孤立したデータとメタデータファイルを削除します。

  • Apache Iceberg は、特定のスナップショット状態へのポインターという名前のブランチとタグを使用してバージョン管理を容易にします。各ブランチとタグは、それぞれのレベルで定義された保持ポリシーによって管理される、独自の独立したライフサイクルに従います。AWS Glue Data Catalog オプティマイザは、これらのライフサイクルポリシーを考慮し、指定された保持ルールを確実に遵守します。ブランチおよびタグレベルの保持ポリシーは、オプティマイザ設定よりも優先されます。

    詳細については、Apache Iceberg のドキュメントの「分岐とタグ付け」を参照してください。

  • スナップショット保持と孤立ファイル削除オプティマイザは、設定されたパラメータに従ってクリーンアップの対象となるファイルを削除します。適切なバケットに S3 バージョニングポリシーとライフサイクルポリシーを実装することで、ファイル削除の制御を強化します。

    バージョニングの設定とライフサイクルルールの作成に関する詳細な手順については、「https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html」を参照してください。