Personalizzazione del comportamento del crawler - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Personalizzazione del comportamento del crawler

Quando configuri un Crawler di AWS Glue, hai diverse opzioni per definire il comportamento del tuo crawler.

  • Indicazioni per indicizzazione incrementali: puoi configurare un crawler per eseguire ricerche per indicizzazione incrementali per aggiungere solo nuove partizioni allo schema della tabella.

  • Indici di partizione: per impostazione predefinita, un crawler crea indici di partizione per le destinazioni Amazon S3 e Delta Lake per fornire una ricerca efficiente di partizioni specifiche.

  • Accelera i tempi di scansione utilizzando gli eventi di Amazon S3: puoi configurare un crawler per utilizzare gli eventi di Amazon S3 per identificare le modifiche tra due scansioni elencando tutti i file della sottocartella che ha attivato l'evento anziché elencare l'intero obiettivo di Amazon S3 o Data Catalog.

  • Gestione delle modifiche allo schema: puoi impedire ai crawler di apportare modifiche allo schema esistente. È possibile utilizzare o il AWS Management Console AWS Glue APIper configurare il modo in cui il crawler elabora determinati tipi di modifiche.

  • Un unico schema per più percorsi Amazon S3: puoi configurare un crawler per creare un unico schema per ogni percorso S3 se i dati sono compatibili.

  • Posizione delle tabelle e livelli di partizionamento: l'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come creare le partizioni.

  • Soglia della tabella: è possibile specificare il numero massimo di tabelle che il crawler è autorizzato a creare specificando una soglia di tabella.

  • AWS Lake Formation credenziali: puoi configurare un crawler per utilizzare le credenziali di Lake Formation per accedere a un data store Amazon S3 o a una tabella Data Catalog con una posizione Amazon S3 sottostante all'interno della stessa o di un'altra. Account AWS Account AWS

Per ulteriori informazioni sull'utilizzo di AWS Glue console per aggiungere un crawler, vedi. Configurazione di un crawler