在排程上產生資料欄統計資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在排程上產生資料欄統計資料

請依照下列步驟,使用 AWS Glue 主控台、 AWS CLI或 CreateColumnStatisticsTaskSettings操作,設定在 中 AWS Glue Data Catalog 產生資料欄統計資料的排程。

Console
使用主控台產生資料欄統計資料
  1. 在 登入 AWS Glue 主控台https://console.aws.amazon.com/glue/

  2. 選擇 Data Catalog 資料表。

  3. 從清單中選擇資料表。

  4. 選擇資料表頁面下半部的資料欄統計資料索引標籤。

  5. 您也可以從動作 中選擇資料欄統計資料下的按排程產生

  6. 排程頁面上產生統計資料,選擇頻率和開始時間,設定執行資料欄統計資料任務的週期性排程。您可以選擇每小時、每天、每週的頻率,或定義 Cron 表達式來指定排程。

    cron 表達式是代表排程模式的字串,由 6 個以空格分隔的欄位組成:* * * * * <minute> <hour> <day of month> <month> <day of week> <year> 例如,若要每天在午夜執行任務, cron 表達式會是:0 0 * * ? *

    如需詳細資訊,請參閱 Cron 表達式

    螢幕擷取畫面顯示可用來產生資料欄統計資料的選項。
  7. 接下來,選擇資料欄選項以產生統計資料。

    • 所有資料欄 – 選擇此選項可產生資料表中所有資料欄的統計資料。

    • 選取的資料欄:選擇此選項可產生特定資料欄的統計資料。您可以從下拉式清單中選取資料欄。

  8. 選擇IAM角色或建立具有產生 statistics. AWS Glue assume this role 的許可的現有角色,以產生資料欄統計資料。

    更快的方法就是讓 AWS Glue 主控台為您建立角色。其建立的角色專門用於產生資料欄統計資料,並包含AWSGlueServiceRole AWS 受管政策加上指定資料來源所需的內嵌政策。

    如果您指定現有角色來產生資料欄統計資料,請確保其包含AWSGlueServiceRole政策或同等項目 (或此政策的縮小範圍版本),以及必要的內嵌政策。

  9. (選用) 接著,選擇安全組態,針對日誌啟用靜態加密。

  10. (選用) 您可以只指出資料表中要產生統計資料的特定資料列百分比,以選擇範例大小。預設值為所有資料列。使用向上和向下箭頭以增加或減少百分比值。

    我們建議在資料表中包含所有資料列,以計算準確的統計資料。只有在接受近似值時,才使用範例資料列產生資料欄統計資料。

  11. 選擇產生統計資料以執行資料欄統計資料產生任務。

AWS CLI

您可以使用下列 AWS CLI 範例來建立資料欄統計資料產生排程。資料庫名稱、資料表名稱和角色是必要的參數,而選用參數是排程 column-name-list、目錄 ID、範例大小和安全組態。

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

您也可以呼叫 StartColumnStatisticsTaskRun操作來產生資料欄統計資料。