本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用資料欄統計資料最佳化查詢效能
您可以計算 Parquet、ORC、、JSONION、 和 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料CSV,XML而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。
Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 Null 值、總相異值、平均值長度和真值的總出現次數。 AWS 分析服務,例如 Amazon Redshift,並 Amazon Athena 可以使用這些資料欄統計資料來產生查詢執行計畫,並選擇改善查詢效能的最佳計畫。
產生資料欄統計資料的情況有兩種:
- 已排程
AWS Glue 支援排程資料欄統計資料產生,以便可以按照週期性排程自動執行。
透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料,例如最小值、最大值,以及與新統計資料的平均值,為查詢引擎提供準確的 up-to-date統計資料,以最佳化查詢執行。
- 隨需
視需要使用此選項產生資料欄統計資料。這對於臨時分析或需要立即計算統計資料時很有用。
您可以將 設定為使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作執行資料欄統計資料產生任務。當您啟動程序時, 會在背景中 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台或 AWS CLI 或 呼叫 GetColumnStatisticsForTableAPI操作來檢視資料欄統計資料。
注意
如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。
下列影片示範如何使用資料欄統計資料增強查詢效能。