選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

自動產生資料欄統計資料

焦點模式
自動產生資料欄統計資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自動產生資料欄統計資料可讓您排程和自動運算 中新資料表的統計資料 AWS Glue Data Catalog。當您啟用自動統計資料產生時,Data Catalog 會探索具有特定資料格式的新資料表,例如 Parquet、JSON、ION、、 CSV XML ORC和 Apache Iceberg,以及其個別儲存貯體路徑。使用一次性目錄組態,Data Catalog 會產生這些資料表的統計資料。

資料湖管理員可以在 Lake Formation 主控台中選取預設目錄,並使用 Optimization configuration選項啟用資料表統計資料,以設定統計資料產生。當您在 Data Catalog 中建立新資料表或更新現有資料表時,Data Catalog 會收集 Apache Iceberg 資料表的不同值 (NDVs) 數目,以及其他統計資料,例如其他支援的檔案格式每週的 null、最大值、最小值和平均長度。

如果您已在資料表層級設定統計資料產生,或先前已刪除資料表的統計資料產生設定,則這些資料表特定設定優先於自動產生資料欄統計資料的預設目錄設定。

自動統計資料產生任務會分析資料表中 20% 的記錄,以計算統計資料。自動產生資料欄統計資料可確保 Data Catalog 擁有最新的統計資料,可供 Amazon Athena 和 Amazon Redshift Spectrum 等查詢引擎使用,以提高查詢效能並節省潛在成本。它允許使用 AWS Glue APIs 或 主控台排程統計資料產生,提供自動化程序,無需手動介入。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。