本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以計算 Parquet、ORC、JSON、ION、CSV 和 XML 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料,而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。
Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 null 值、總相異值、平均值長度和真值的總出現次數。 AWS 分析服務,例如 Amazon Redshift,可以使用 Amazon Athena 這些資料欄統計資料來產生查詢執行計劃,並選擇改善查詢效能的最佳計劃。
產生資料欄統計資料有三種情況:
- 自動
AWS Glue 支援在目錄層級自動產生資料欄統計資料,讓它可以自動產生 中新資料表的統計資料 AWS Glue Data Catalog。
- 已排程
AWS Glue 支援排程資料欄統計資料產生,以便可以按照週期性排程自動執行。
透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料,例如最小值、最大值和平均值與新統計資料,為查詢引擎提供準確且up-to-date統計資料,以最佳化查詢執行。
- 隨需
使用此選項可視需要產生資料欄統計資料。這對於臨機操作分析或需要立即計算統計資料時很有用。
您可以設定 使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作來執行資料欄統計資料產生任務。當您啟動程序時, 會在背景 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 GetColumnStatisticsForTable API 操作來檢視資料欄統計資料。
注意
如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。
下列影片示範如何使用資料欄統計資料增強查詢效能。