優化冰山表的查詢性能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

優化冰山表的查詢性能

Apache Iceberg 是用於大型分析資料集的高效能開放式資料表格式。 AWS Glue 支持計算和更新冰山表中每個列的不同值(NDV)的數量。對於處理大型資料集的資料工程師和科學家,這些統計資料可促進更好的查詢最佳化、資料管理和效能效率。

AWS Glue 估計 Iceberg 表中每個列中不同值的數量,並將它們存儲在與 Iceberg 表快照相關聯的 Amazon S3 上的海雀文件中。海雀是一種冰山文件格式,旨在存儲元數據,如索引,統計信息和草圖。將草圖存儲在與快照綁定的 Puffin 文件中,可確保 NDV 統計信息的事務一致性和新鮮度。

您可以設定為使用 AWS Glue 主控台或執行資料行統計資料產生工作 AWS CLI。當您啟動程序時,會在背景 AWS Glue 啟動 Spark 工作,並更新「資料目錄」中的 AWS Glue 表格中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或呼叫 GetColumnStatisticsForTableAPI 作業來檢視資料行統計資料。

注意

如果您使用 AWS Lake Formation 權限來控制資料表的存取權,則資料行統計資料工作所承擔的角色需要完整資料表存取權才能產生統計資料。

另請參閱