スケジュールでの列統計の生成 - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

スケジュールでの列統計の生成

AWS Glue コンソール、、 AWS CLIまたは CreateColumnStatisticsTaskSettingsオペレーションを使用して AWS Glue Data Catalog で列統計を生成するスケジュールを設定するには、次の手順に従います。

Console
コンソールを使用して列統計を生成するには
  1. で AWS Glue コンソールにサインインしますhttps://console.aws.amazon.com/glue/

  2. データカタログテーブルを選択します。

  3. リストからテーブルを選択します。

  4. Tables ページの下部にある列統計タブを選択します。

  5. アクション列統計スケジュールどおりに生成を選択することもできます。

  6. スケジュールで統計を生成するページで、頻度と開始時刻を選択して、列統計タスクを実行するための定期的なスケジュールを設定します。スケジュールを指定するには、時間単位、日単位、週単位の頻度を選択するか、cron 式を定義できます。

    cron 式は、スペースで区切られた 6 つのフィールドで構成されるスケジュールパターンを表す文字列です。* * * * <minute> <hour> <day of month> <month> <day of week> <year> たとえば、毎日午前 0 時にタスクを実行する場合、cron 式は 0 0 * * ? *

    詳細については、「Cron 式」を参照してください。

    スクリーンショットは、列統計の生成に使用できるオプションを示しています。
  7. 次に、列オプションを選択して統計を生成します。

    • すべての列 - テーブル内のすべての列の統計を生成するには、このオプションを選択します。

    • 選択された列 – 特定の列の統計を生成するには、このオプションを選択します。ドロップダウンリストから列を選択できます。

  8. IAM ロールを選択するか、統計を生成するアクセス許可を持つ既存のロールを作成します。列統計を生成するには、このロール AWS Glue を前提とします。

    より迅速なアプローチは、 AWS Glue コンソールにロールを作成させることです。作成するロールは、列統計を生成するために特別に用意されており、 AWSGlueServiceRole AWS マネージドポリシーと、指定されたデータソースに必要なインラインポリシーが含まれています。

    列統計を生成するための既存のロールを指定する場合は、AWSGlueServiceRoleポリシーまたは同等のもの (またはこのポリシーのスコープダウンバージョン) と、必要なインラインポリシーが含まれていることを確認してください。

  9. (オプション) 次に、ログの保管中の暗号化を有効にするセキュリティ設定を選択します。

  10. (オプション) サンプルサイズは、統計を生成するためにテーブルから特定の割合の行のみを指定することで選択できます。デフォルトは、すべての行です。上矢印と下矢印を使用してパーセント (%) の値を増減します。

    正確な統計を計算するには、テーブル内のすべての行を含めることをお勧めします。近似値が許容される場合にのみ、サンプル行を使用して列統計を生成します。

  11. 統計の生成を選択して、列統計の生成タスクを実行します。

AWS CLI

次の AWS CLI 例を使用して、列統計の生成スケジュールを作成できます。database-name、table-name、および role は必須パラメータであり、オプションのパラメータはスケジュール column-name-list、catlate-id、sample-size、および security-configuration です。

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

StartColumnStatisticsTaskRun オペレーションを呼び出すことで、列統計を生成することもできます。