翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
新しいパーティションを追加するための増分クロールのスケジューリング
テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するように AWS Glue クローラー を設定できます。クローラーは、初回実行時にデータソース全体を処理するフルクロールを実行し、完全なスキーマと既存のすべてのパーティションを AWS Glue Data Catalog に記録します。
最初のフルクロールの後のクロールは増分となり、クローラーは前回のクロール以降に導入された新しいパーティションのみを識別して追加します。このアプローチにより、クローラーは実行ごとにデータソース全体を処理する必要がなくなり、代わりに新しいパーティションにだけ焦点を当てるため、クロール時間が短縮されます。
注記
増分クロールは、既存のパーティションの変更や削除を検出しません。この設定は、安定したスキーマを持つデータソースに最適です。大規模なスキーマ変更が発生した場合は、新しいスキーマを正確に取得するために、一時的にクローラーがフルクロールを実行するように設定し、その後増分クローリングモードに戻すことをお勧めします。
次の図は、増分クロール設定を有効にすると、クローラーが新しく追加されたフォルダ、month=March のみを検出してカタログに追加する状況を示しています。
クローラーを更新して増分クロールを実行するには、次の手順に従います。
注意と制限
このオプションをオンにすると、クローラーの編集時に Amazon S3 ターゲットデータストアを変更できなくなります。このオプションは、ある特定のクローラー設定に影響します。オンにすると、クローラーの更新動作と削除動作が LOG
になります。これにより、以下のように処理されます。
-
スキーマに互換性がないオブジェクトを検出した場合、クローラーはデータカタログにオブジェクトを追加せず、この詳細を CloudWatch Logs のログとして追加します。
-
データカタログで削除されたオブジェクトは更新されません。