選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用資料欄統計資料最佳化查詢效能

焦點模式
使用資料欄統計資料最佳化查詢效能 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以計算 Parquet、ORC、JSON、ION、CSV 和 XML 等資料格式 AWS Glue Data Catalog 資料表的資料欄層級統計資料,而無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值,了解資料設定檔。

Data Catalog 支援產生資料欄值的統計資料,例如最小值、最大值、總 null 值、總相異值、平均值長度和真值的總出現次數。 AWS 分析服務,例如 Amazon Redshift,可以使用 Amazon Athena 這些資料欄統計資料來產生查詢執行計劃,並選擇改善查詢效能的最佳計劃。

產生資料欄統計資料有三種情況:

自動

AWS Glue 支援在目錄層級自動產生資料欄統計資料,讓它可以自動產生 中新資料表的統計資料 AWS Glue Data Catalog。

已排程

AWS Glue 支援排程資料欄統計資料產生,以便可以按照週期性排程自動執行。

透過排程統計資料計算,資料欄統計資料任務會更新整體資料表層級統計資料,例如最小值、最大值和平均值與新統計資料,為查詢引擎提供準確且up-to-date統計資料,以最佳化查詢執行。

隨需

使用此選項可視需要產生資料欄統計資料。這對於臨機操作分析或需要立即計算統計資料時很有用。

您可以設定 使用 AWS Glue 主控台 AWS CLI和 AWS Glue API 操作來執行資料欄統計資料產生任務。當您啟動程序時, 會在背景 AWS Glue 啟動 Spark 任務,並更新 Data Catalog 中的 AWS Glue 資料表中繼資料。您可以使用 AWS Glue 主控台 AWS CLI 或 或呼叫 GetColumnStatisticsForTable API 操作來檢視資料欄統計資料。

注意

如果您正在使用 Lake Formation 權限控制資料表的存取權,則資料欄統計資料任務所擔任的角色將需要完整的資料表存取權,才可產生統計資料。

下列影片示範如何使用資料欄統計資料增強查詢效能。

下一個主題:

先決條件

上一個主題:

與 MongoDB 整合
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。