使用資料欄統計資料最佳化查詢效能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用資料欄統計資料最佳化查詢效能

您可以計算 Parquet、ORC、、JSONION、 和 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料CSV,XML而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。

Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 Null 值、總相異值、平均值長度和真值的總出現次數。 AWS 分析服務,例如 Amazon Redshift,並 Amazon Athena 可以使用這些資料欄統計資料來產生查詢執行計畫,並選擇改善查詢效能的最佳計畫。

產生資料欄統計資料的情況有兩種:

已排程

AWS Glue 支援排程資料欄統計資料產生,以便可以按照週期性排程自動執行。

透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料,例如最小值、最大值,以及與新統計資料的平均值,為查詢引擎提供準確的 up-to-date統計資料,以最佳化查詢執行。

隨需

視需要使用此選項產生資料欄統計資料。這對於臨時分析或需要立即計算統計資料時很有用。

您可以將 設定為使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作執行資料欄統計資料產生任務。當您啟動程序時, 會在背景中 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台或 AWS CLI 或 呼叫 GetColumnStatisticsForTableAPI操作來檢視資料欄統計資料。

注意

如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。

下列影片示範如何使用資料欄統計資料增強查詢效能。