自動產生資料欄統計資料

PDF

RSS

焦點模式

Related resources

AWS Glue DataBrew 開發人員指南

AWS CLI 的命令 AWS Glue

SDKs & 工具

此頁面是否有幫助？

提供意見回饋

自動產生資料欄統計資料 - AWS Glue

自動產生資料欄統計資料可讓您排程和自動運算中新資料表的統計資料 AWS Glue Data Catalog。當您啟用自動統計資料產生時，Data Catalog 會探索具有特定資料格式的新資料表，例如 Parquet、JSON、ION、、 CSV XML ORC和 Apache Iceberg，以及其個別儲存貯體路徑。使用一次性目錄組態，Data Catalog 會產生這些資料表的統計資料。

資料湖管理員可以在 Lake Formation 主控台中選取預設目錄，並使用 Optimization configuration選項啟用資料表統計資料，以設定統計資料產生。當您在 Data Catalog 中建立新資料表或更新現有資料表時，Data Catalog 會收集 Apache Iceberg 資料表的不同值 (NDVs) 數目，以及其他統計資料，例如其他支援的檔案格式每週的 null、最大值、最小值和平均長度。

如果您已在資料表層級設定統計資料產生，或先前已刪除資料表的統計資料產生設定，則這些資料表特定設定優先於自動產生資料欄統計資料的預設目錄設定。

自動統計資料產生任務會分析資料表中 20% 的記錄，以計算統計資料。自動產生資料欄統計資料可確保 Data Catalog 擁有最新的統計資料，可供 Amazon Athena 和 Amazon Redshift Spectrum 等查詢引擎使用，以提高查詢效能並節省潛在成本。它允許使用 AWS Glue APIs 或主控台排程統計資料產生，提供自動化程序，無需手動介入。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

必要條件

啟用目錄層級自動統計資料產生

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

自動產生資料欄統計資料

Related resources

此頁面是否有幫助？

主題

下一個主題：

上一個主題：

需要協助？