新しいパーティションを追加するための増分クロールのスケジューリング - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

新しいパーティションを追加するための増分クロールのスケジューリング

テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するように AWS Glue クローラー を設定できます。クローラーは、初回実行時にデータソース全体を処理するフルクロールを実行し、完全なスキーマと既存のすべてのパーティションを AWS Glue Data Catalog に記録します。

最初のフルクロールの後のクロールは増分となり、クローラーは前回のクロール以降に導入された新しいパーティションのみを識別して追加します。このアプローチにより、クローラーは実行ごとにデータソース全体を処理する必要がなくなり、代わりに新しいパーティションにだけ焦点を当てるため、クロール時間が短縮されます。

注記

増分クロールは、既存のパーティションの変更や削除を検出しません。この設定は、安定したスキーマを持つデータソースに最適です。大規模なスキーマ変更が発生した場合は、新しいスキーマを正確に取得するために、一時的にクローラーがフルクロールを実行するように設定し、その後増分クローリングモードに戻すことをお勧めします。

次の図は、増分クロール設定を有効にすると、クローラーが新しく追加されたフォルダ、month=March のみを検出してカタログに追加する状況を示しています。

次の図は、3 月のファイルが追加されていることを示しています。

クローラーを更新して増分クロールを実行するには、次の手順に従います。

AWS Management Console
  1. AWS Management Consoleにサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。

  2. [Data Catalog][クローラー] を選択します。

  3. 増分的にクロールするように設定するクローラーを選択します。

  4. [編集] を選択します。

  5. [ステップ 2] を選択します。データソースと分類子を選択します

  6. 増分的にクロールするデータソースを選択します。

  7. [編集] を選択します。

  8. [それ以降のクローラー実行] で、[新しいサブフォルダのみをクローリング] を選択します。

  9. [Update] (更新) を選択します。

クローラーのスケジュールを作成するには、「クローラのスケジュール」を参照してください。

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
注意と制限

このオプションをオンにすると、クローラーの編集時に Amazon S3 ターゲットデータストアを変更できなくなります。このオプションは、ある特定のクローラー設定に影響します。オンにすると、クローラーの更新動作と削除動作が LOG になります。これにより、以下のように処理されます。

  • スキーマに互換性がないオブジェクトを検出した場合、クローラーはデータカタログにオブジェクトを追加せず、この詳細を CloudWatch Logs のログとして追加します。

  • データカタログで削除されたオブジェクトは更新されません。