Accelerazione del crawling con le notifiche eventi Amazon S3 - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accelerazione del crawling con le notifiche eventi Amazon S3

Invece di elencare gli oggetti da una destinazione Amazon S3 o catalogo dati, puoi configurare il crawler in modo che utilizzi gli eventi Amazon S3 per trovare eventuali modifiche. Questa caratteristica migliora il tempo di recupero utilizzando gli eventi Amazon S3 per identificare le modifiche tra due ricerche per indicizzazione elencando tutti i file della sottocartella che ha attivato l'evento invece che elencare l'intera destinazione Amazon S3 o catalogo dati.

Il primo crawling elenca tutti gli oggetti Amazon S3 dalla destinazione. Dopo il primo crawling riuscito, è possibile scegliere di effettuare una ricerca manualmente o in base a una pianificazione prestabilita. Il crawler elencherà solo gli oggetti di tali eventi invece di elencare tutti gli oggetti.

Quando la destinazione è una tabella del catalogo dati, il crawler aggiorna le tabelle esistenti nel catalogo dati con modifiche (ad esempio, partizioni aggiuntive in una tabella).

I vantaggi di passare a un crawler basato su eventi Amazon S3 sono:

  • Non è necessario un nuovo crawling più rapido, poiché non è necessario l'elenco di tutti gli oggetti della destinazione, invece l'elenco di cartelle specifiche viene eseguito dove gli oggetti vengono aggiunti o eliminati.

  • Si ha una riduzione del costo complessivo del crawling man mano che vengono elencate le cartelle specifiche nelle quali gli oggetti vengono aggiunti o eliminati.

La scansione degli eventi di Amazon S3 viene eseguita consumando gli eventi Amazon S3 dalla SQS coda in base alla pianificazione del crawler. Non ci saranno costi se non ci sono eventi nella coda. Gli eventi di Amazon S3 possono essere configurati per passare direttamente alla SQS coda o, nei casi in cui più consumatori necessitano dello stesso evento, una combinazione di e. SNS SQS Per ulteriori informazioni, consulta Configurazione dell'account per le notifiche degli eventi di Amazon S3.

Dopo aver creato e configurato il crawler in modalità evento, il primo crawling viene eseguito in modalità elenco eseguendo un elenco completo della destinazione Amazon S3 o catalogo dati. Il seguente log conferma il funzionamento del crawling consumando gli eventi Amazon S3 dopo la prima scansione riuscita: "il crawling è in esecuzione consumando eventi Amazon S3".

Dopo aver creato la ricerca per indicizzazione degli eventi Amazon S3 e aver aggiornato le proprietà del crawler che potrebbero influire sul crawling, quest'ultima funziona in modalità elenco e viene aggiunto il seguente log: "Il crawling non è in esecuzione in modalità evento S3".

Nota

Il numero massimo di messaggi da utilizzare è di 100.000 messaggi per scansione.

Limitazioni

Le seguenti limitazioni si applicano quando configuri un crawler per utilizzare le notifiche di eventi di Amazon S3 per trovare eventuali modifiche.

  • Il crawler di destinazione ne supporta una sola, sia per quanto riguarda le destinazioni Amazon S3 che per le destinazioni Amazon S3.

  • SQSon private non VPC è supportato.

  • Il campionamento Amazon S3 non è supportato.

  • La destinazione del crawler deve essere una cartella per una destinazione Amazon S3 o una o più AWS Glue Tabelle Data Catalog per un oggetto Data Catalog.

  • Il carattere jolly del percorso “tutto” non è supportato: s3: //%

  • Per una destinazione catalogo dati, tutte le tabelle del catalogo devono puntare allo stesso bucket Amazon S3 per la modalità evento di Amazon S3.

  • Per una destinazione catalogo dati, una tabella di catalogo non deve indicare una posizione Amazon S3 nel formato Delta Lake (contenente cartelle _symlink o controllando le tabelle del catalogo InputFormat).

Configurazione dell'account per le notifiche degli eventi di Amazon S3

Completa i seguenti processi di configurazione. Nota che i valori tra parentesi fanno riferimento alle impostazioni configurabili dello script.

  1. Devi configurare le notifiche degli eventi per il tuo bucket Amazon S3.

    Per ulteriori informazioni, consulta Notifiche di eventi di Amazon S3.

  2. Per utilizzare il crawler basato sugli eventi di Amazon S3, devi abilitare la notifica degli eventi sul bucket Amazon S3 con gli eventi filtrati dal prefisso che è lo stesso del target S3 e lo archivia in. SQS Puoi configurare una notifica degli eventi tramite la console seguendo SQS i passaggi descritti in Procedura dettagliata: Configurazione di un bucket per le notifiche.

  3. Aggiungi la seguente SQS politica al ruolo utilizzato dal crawler.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "sqs:DeleteMessage", "sqs:GetQueueUrl", "sqs:ListDeadLetterSourceQueues", "sqs:ReceiveMessage", "sqs:GetQueueAttributes", "sqs:ListQueueTags", "sqs:SetQueueAttributes", "sqs:PurgeQueue" ], "Resource": "arn:aws:sqs:{region}:{accountID}:cfn-sqs-queue" } ] }