クローラーの動作のカスタマイズ
AWS Glue クローラー を設定する場合、クローラーの動作を定義するためのオプションをいくつか使用できます。
-
増分クロール – テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するようにクローラーを設定できます。
-
パーティションインデックス – クローラーは、特定のパーティションを効率的に検索するために、デフォルトで Amazon S3 および Delta Lake ターゲットのパーティションインデックスを作成します。
-
Amazon S3 イベントを使用してクロール時間を短縮する – Amazon S3 または Data Catalog ターゲット全体を一覧表示するのではなく、Amazon S3 イベントを使用してイベントをトリガーしたサブフォルダからのすべてのファイルを一覧表示して 2 つのクロール間の変更を識別するようにクローラーを設定できます。
スキーマの変更の処理 – クローラーが既存のスキーマに対してスキーマの変更を行わないようにすることができます。AWS Management Console または AWS Glue API を使用して、特定のタイプの変更をクローラーで処理する方法を設定できます。
-
複数の Amazon S3 パスの単一のスキーマ – データに互換性がある場合は、各 S3 パスの単一のスキーマを作成するようにクローラーを設定できます。
テーブルの場所とパーティションレベル – テーブルレベルのクローラーオプションを使用すると、クローラーにテーブルの配置場所やパーティションの作成方法を柔軟に指定できます。
テーブルしきい値 – テーブルしきい値を指定することで、クローラーが作成できるテーブルの最大数を指定できます。
AWS Lake Formation 認証情報 – Lake Formation 認証情報を使用するようにクローラーを設定すると、同じ AWS アカウント または別の AWS アカウント 内の Amazon S3 データストアまたは Data Catalog テーブルにアクセスできます。これらのテーブルは、Amazon S3 の場所を基盤としています。
AWS Glue コンソールを使用してクローラーを追加する方法の詳細については、「クローラーの設定」を参照してください。