優化冰山表的查詢性能

Apache Iceberg 是用於大型分析資料集的高效能開放式資料表格式。 AWS Glue 支持計算和更新冰山表中每個列的不同值（NDV）的數量。對於處理大型資料集的資料工程師和科學家，這些統計資料可促進更好的查詢最佳化、資料管理和效能效率。

AWS Glue 估計 Iceberg 表中每個列中不同值的數量，並將它們存儲在與 Iceberg 表快照相關聯的 Amazon S3 上的海雀文件中。海雀是一種冰山文件格式，旨在存儲元數據，如索引，統計信息和草圖。將草圖存儲在與快照綁定的 Puffin 文件中，可確保 NDV 統計信息的事務一致性和新鮮度。

您可以設定為使用 AWS Glue 主控台或執行資料行統計資料產生工作 AWS CLI。當您啟動程序時，會在背景 AWS Glue 啟動 Spark 工作，並更新「資料目錄」中的 AWS Glue 表格中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或呼叫 GetColumnStatisticsForTableAPI 作業來檢視資料行統計資料。