本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Apache Iceberg 中的資料表 AWS Clean Rooms
Apache Iceberg 是資料湖的開放原始碼資料表格式。 AWS Clean Rooms 可以使用 中存放的統計資料 Apache Iceberg 中繼資料,以最佳化查詢計劃,並減少無塵室查詢處理期間的檔案掃描。如需詳細資訊,請參閱 Apache Iceberg
AWS Clean Rooms 搭配 Iceberg 資料表使用 時,請考慮下列事項:
-
AWS Glue Data Catalog 僅 內的資料表 – Apache Iceberg 資料表必須在 中 AWS Glue Data Catalog 根據開放原始碼膠體目錄實作
定義。 -
Parquet 檔案格式 – AWS Clean Rooms 僅支援 Parquet 資料檔案格式的 Iceberg 資料表。
-
GZIP 和 Snappy 壓縮 – 使用 GZIP和 AWS Clean Rooms 支援 Parquet Snappy 壓縮。
-
Iceberg 版本 – AWS Clean Rooms 支援針對第 1 版和第 2 版 Iceberg 資料表執行查詢。
-
分割區 – 您不需要為 手動新增分割區 Apache Iceberg 中的資料表 AWS Glue。在 中 AWS Clean Rooms 偵測新分割區 Apache Iceberg 資料表,不需要手動操作即可更新資料表定義中的分割區。Iceberg 分割區在 AWS Clean Rooms 資料表結構描述中顯示為一般資料欄,而不是在設定的資料表結構描述中單獨顯示為分割區金鑰。
-
限制
-
僅限新的 Iceberg 資料表
Apache Iceberg 從 轉換的資料表 Apache Parquet 不支援資料表。
-
時間歷程查詢
AWS Clean Rooms 不支援使用 的時間行程查詢 Apache Iceberg 資料表。
-
Athena 引擎版本 2
Iceberg 不支援使用 Athena 引擎版本 2 建立的資料表。
-
檔案格式
Avro 不支援 和 Optimized Row Columnar (ORC) 檔案格式。
-
壓縮
Zstandard 的 (Zstd) 壓縮 Parquet 不支援。
-
Iceberg 資料表支援的資料類型
AWS Clean Rooms 可以查詢 Iceberg 包含下列資料類型的資料表:
-
boolean
-
date
-
decimal
-
double
-
float
-
int
-
list
-
long
-
map
-
string
-
struct
-
timestamp without time zone
如需 Iceberg 資料類型的相關資訊,請參閱 Apache Iceberg 文件中的 Iceberg 結構描述