クローラーの動作のカスタマイズ - AWS Glue

クローラーの動作のカスタマイズ

AWS Glue クローラー を設定する場合、クローラーの動作を定義するためのオプションをいくつか使用できます。

  • 増分クロール – テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するようにクローラーを設定できます。

  • パーティションインデックス – クローラーは、特定のパーティションを効率的に検索するために、デフォルトで Amazon S3 および Delta Lake ターゲットのパーティションインデックスを作成します。

  • Amazon S3 イベントを使用してクロール時間を短縮する – Amazon S3 または Data Catalog ターゲット全体を一覧表示するのではなく、Amazon S3 イベントを使用してイベントをトリガーしたサブフォルダからのすべてのファイルを一覧表示して 2 つのクロール間の変更を識別するようにクローラーを設定できます。

  • スキーマの変更の処理 – クローラーが既存のスキーマに対してスキーマの変更を行わないようにすることができます。AWS Management Console または AWS Glue API を使用して、特定のタイプの変更をクローラーで処理する方法を設定できます。

  • 複数の Amazon S3 パスの単一のスキーマ – データに互換性がある場合は、各 S3 パスの単一のスキーマを作成するようにクローラーを設定できます。

  • テーブルの場所とパーティションレベル – テーブルレベルのクローラーオプションを使用すると、クローラーにテーブルの配置場所やパーティションの作成方法を柔軟に指定できます。

  • テーブルしきい値 – テーブルしきい値を指定することで、クローラーが作成できるテーブルの最大数を指定できます。

  • AWS Lake Formation 認証情報 – Lake Formation 認証情報を使用するようにクローラーを設定すると、同じ AWS アカウント または別の AWS アカウント 内の Amazon S3 データストアまたは Data Catalog テーブルにアクセスできます。これらのテーブルは、Amazon S3 の場所を基盤としています。

AWS Glue コンソールを使用してクローラーを追加する方法の詳細については、「クローラーの設定」を参照してください。