Apache Iceberg 中的資料表 AWS Clean Rooms - AWS Clean Rooms

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Apache Iceberg 中的資料表 AWS Clean Rooms

Apache Iceberg 是資料湖的開放原始碼資料表格式。 AWS Clean Rooms 可以使用 中存放的統計資料 Apache Iceberg 中繼資料,以最佳化查詢計劃,並減少無塵室查詢處理期間的檔案掃描。如需詳細資訊,請參閱 Apache Iceberg 文件。

AWS Clean Rooms 搭配 Iceberg 資料表使用 時,請考慮下列事項:

  • AWS Glue Data Catalog 僅 內的資料表 – Apache Iceberg 資料表必須在 中 AWS Glue Data Catalog 根據開放原始碼膠體目錄實作定義。

  • Parquet 檔案格式 – AWS Clean Rooms 僅支援 Parquet 資料檔案格式的 Iceberg 資料表。

  • GZIP 和 Snappy 壓縮 – 使用 GZIP和 AWS Clean Rooms 支援 Parquet Snappy 壓縮。

  • Iceberg 版本 – AWS Clean Rooms 支援針對第 1 版和第 2 版 Iceberg 資料表執行查詢。

  • 分割區 – 您不需要為 手動新增分割區 Apache Iceberg 中的資料表 AWS Glue。在 中 AWS Clean Rooms 偵測新分割區 Apache Iceberg 資料表,不需要手動操作即可更新資料表定義中的分割區。Iceberg 分割區在 AWS Clean Rooms 資料表結構描述中顯示為一般資料欄,而不是在設定的資料表結構描述中單獨顯示為分割區金鑰。

  • 限制

    • 僅限新的 Iceberg 資料表

      Apache Iceberg 從 轉換的資料表 Apache Parquet 不支援資料表。

    • 時間歷程查詢

      AWS Clean Rooms 不支援使用 的時間行程查詢 Apache Iceberg 資料表。

    • Athena 引擎版本 2

      Iceberg 不支援使用 Athena 引擎版本 2 建立的資料表。

    • 檔案格式

      Avro 不支援 和 Optimized Row Columnar (ORC) 檔案格式。

    • 壓縮

      Zstandard 的 (Zstd) 壓縮 Parquet 不支援。

Iceberg 資料表支援的資料類型

AWS Clean Rooms 可以查詢 Iceberg 包含下列資料類型的資料表:

  • boolean

  • date

  • decimal

  • double

  • float

  • int

  • list

  • long

  • map

  • string

  • struct

  • timestamp without time zone

如需 Iceberg 資料類型的相關資訊,請參閱 Apache Iceberg 文件中的 Iceberg 結構描述