Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menjadwalkan crawl inkremental untuk menambahkan partisi baru
Anda dapat mengonfigurasi crawl tambahan Perayap AWS Glue run untuk menambahkan hanya partisi baru ke skema tabel. Saat crawler berjalan untuk pertama kalinya, crawler melakukan crawl penuh untuk memproses seluruh sumber data untuk merekam skema lengkap dan semua partisi yang ada di file. AWS Glue Data Catalog
Perayapan berikutnya setelah perayapan penuh awal akan bersifat inkremental, di mana crawler mengidentifikasi dan hanya menambahkan partisi baru yang telah diperkenalkan sejak perayapan sebelumnya. Pendekatan ini menghasilkan waktu crawl yang lebih cepat, karena crawler tidak lagi perlu memproses seluruh sumber data untuk setiap proses, tetapi hanya berfokus pada partisi baru.
catatan
Crawl inkremental tidak mendeteksi modifikasi atau penghapusan partisi yang ada. Konfigurasi ini paling cocok untuk sumber data dengan skema yang stabil. Jika perubahan skema besar satu kali terjadi, disarankan untuk sementara mengatur crawler untuk melakukan crawl penuh untuk menangkap skema baru secara akurat, dan kemudian beralih kembali ke mode crawling inkremental.
Diagram berikut menunjukkan bahwa dengan pengaturan crawl inkremental diaktifkan, crawler hanya akan mendeteksi dan menambahkan folder yang baru ditambahkan, bulan=Maret, ke katalog.
Ikuti langkah-langkah berikut untuk memperbarui crawler Anda untuk melakukan crawl inkremental:
Catatan dan batasan
Bila opsi ini diaktifkan, Anda tidak dapat mengubah penyimpanan data target Amazon S3 saat mengedit crawler. Opsi ini memengaruhi pengaturan konfigurasi crawler tertentu. Bila diaktifkan, tindakan ini akan memaksa perilaku pembaruan dan menghapus perilaku crawler ke LOG
. Ini artinya bahwa:
-
Jika menemukan objek di mana skema tidak kompatibel, crawler tidak akan menambahkan objek dalam Katalog Data, dan menambahkan detail ini sebagai log di Log. CloudWatch
-
Ini tidak akan memperbarui objek yang dihapus di Katalog Data.