Menjadwalkan crawl inkremental untuk menambahkan partisi baru - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menjadwalkan crawl inkremental untuk menambahkan partisi baru

Anda dapat mengonfigurasi crawl tambahan Perayap AWS Glue run untuk menambahkan hanya partisi baru ke skema tabel. Saat crawler berjalan untuk pertama kalinya, crawler melakukan crawl penuh untuk memproses seluruh sumber data untuk merekam skema lengkap dan semua partisi yang ada di file. AWS Glue Data Catalog

Perayapan berikutnya setelah perayapan penuh awal akan bersifat inkremental, di mana crawler mengidentifikasi dan hanya menambahkan partisi baru yang telah diperkenalkan sejak perayapan sebelumnya. Pendekatan ini menghasilkan waktu crawl yang lebih cepat, karena crawler tidak lagi perlu memproses seluruh sumber data untuk setiap proses, tetapi hanya berfokus pada partisi baru.

catatan

Crawl inkremental tidak mendeteksi modifikasi atau penghapusan partisi yang ada. Konfigurasi ini paling cocok untuk sumber data dengan skema yang stabil. Jika perubahan skema besar satu kali terjadi, disarankan untuk sementara mengatur crawler untuk melakukan crawl penuh untuk menangkap skema baru secara akurat, dan kemudian beralih kembali ke mode crawling inkremental.

Diagram berikut menunjukkan bahwa dengan pengaturan crawl inkremental diaktifkan, crawler hanya akan mendeteksi dan menambahkan folder yang baru ditambahkan, bulan=Maret, ke katalog.

Diagram berikut menunjukkan bahwa file untuk bulan Maret telah ditambahkan.

Ikuti langkah-langkah berikut untuk memperbarui crawler Anda untuk melakukan crawl inkremental:

AWS Management Console
  1. Masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/.

  2. Pilih Crawler di bawah Katalog Data.

  3. Pilih crawler yang ingin Anda atur untuk dirayapi secara bertahap.

  4. Pilih Edit.

  5. Pilih Langkah 2. Pilih sumber data dan pengklasifikasi.

  6. Pilih sumber data yang ingin dirayapi secara bertahap.

  7. Pilih Edit.

  8. Pilih Merayapi sub-folder baru hanya di bawah Perayap berikutnya berjalan.

  9. Pilih Perbarui.

Untuk membuat jadwal crawler, lihatMenjadwalkan crawler.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Catatan dan batasan

Bila opsi ini diaktifkan, Anda tidak dapat mengubah penyimpanan data target Amazon S3 saat mengedit crawler. Opsi ini memengaruhi pengaturan konfigurasi crawler tertentu. Bila diaktifkan, tindakan ini akan memaksa perilaku pembaruan dan menghapus perilaku crawler ke LOG. Ini artinya bahwa:

  • Jika menemukan objek di mana skema tidak kompatibel, crawler tidak akan menambahkan objek dalam Katalog Data, dan menambahkan detail ini sebagai log di Log. CloudWatch

  • Ini tidak akan memperbarui objek yang dihapus di Katalog Data.