Pianificazione di scansioni incrementali per l'aggiunta di nuove partizioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Pianificazione di scansioni incrementali per l'aggiunta di nuove partizioni

È possibile configurare Crawler di AWS Glue ed eseguire ricerche di indicizzazione incrementali per aggiungere solo nuove partizioni allo schema della tabella. Quando il crawler viene eseguito per la prima volta, esegue una scansione completa per elaborare l'intera fonte di dati per registrare lo schema completo e tutte le partizioni esistenti nello. AWS Glue Data Catalog

Le ricerche per indicizzazione successive alla ricerca per indicizzazione completa iniziale saranno incrementali, in cui il crawler identifica e aggiunge solo le nuove partizioni introdotte dopo la ricerca per indicizzazione precedente. Questo approccio consente tempi di scansione più rapidi, in quanto il crawler non deve più elaborare l'intera fonte di dati per ogni esecuzione, ma si concentra invece solo sulle nuove partizioni.

Nota

Le scansioni incrementali non rilevano modifiche o eliminazioni di partizioni esistenti. Questa configurazione è più adatta per fonti di dati con uno schema stabile. Se si verifica una modifica importante dello schema una tantum, è consigliabile impostare temporaneamente il crawler in modo che esegua una ricerca per indicizzazione completa per acquisire il nuovo schema con precisione, e quindi tornare alla modalità di indicizzazione incrementale.

Il diagramma seguente mostra che con l'impostazione di indicizzazione incrementale abilitata, il crawler rileverà e aggiungerà solo la cartella appena aggiunta, month=march, al catalogo.

Il diagramma seguente mostra l'aggiunta dei file relativi al mese di marzo.

Segui questi passaggi per aggiornare il crawler per eseguire scansioni incrementali:

AWS Management Console
  1. Accedi e apri la console all'indirizzo AWS Management Console . AWS Glue https://console.aws.amazon.com/glue/

  2. Scegli Crawler nel Data Catalog.

  3. Scegli un crawler che desideri configurare per la scansione incrementale.

  4. Scegli Modifica.

  5. Scegli il passaggio 2. Scegli fonti di dati e classificatori.

  6. Scegli l'origine dati che desideri sottoporre a scansione incrementale.

  7. Scegli Modifica.

  8. Scegli Esplora nuove sottocartelle solo in Esecuzioni successive del crawler.

  9. Scegli Aggiorna.

Per creare una pianificazione per un crawler, consulta. Pianificazione di un crawler

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Note e restrizioni

Quando questa opzione è attivata, non è possibile modificare gli archivi dati di destinazione Amazon S3 quando si modifica il crawler. Questa opzione influisce su alcune impostazioni di configurazione del crawler. Quando è attivata, impone il comportamento di aggiornamento e di eliminazione del crawler a LOG. Ciò significa che:

  • Se rileva oggetti con schemi non compatibili, il crawler non aggiungerà gli oggetti nel Data Catalog e aggiungerà questi dettagli come log in Logs. CloudWatch

  • Non aggiornerà gli oggetti eliminati nel catalogo dati.