Usa più fonti di dati con un crawler

Modalità Focus

Usa più fonti di dati con un crawler - Amazon Athena

Quando un AWS Glue crawler esegue la scansione di Amazon S3 e rileva più directory, utilizza un'euristica per determinare dove si trova la radice di una tabella nella struttura di directory e quali directory sono partizioni per la tabella. Nei casi in cui gli schemi rilevati in due o più directory siano analoghi, il crawler potrebbe trattarli come partizioni invece di tabelle separate. Un metodo per aiutare il crawler a rilevare singole tabelle è aggiungere la directory radice di ciascuna tabella come datastore per il crawler.

Le seguenti partizioni in Amazon S3 sono un esempio:


s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt

Se lo schema di table1 e table2 è simile e una singola origine dati è impostata su s3://amzn-s3-demo-bucket/folder1/ in AWS Glue, il crawler può creare una singola tabella con due colonne di partizione: una colonna di partizione che contiene table1 e table2 e una seconda colonna di partizione che contiene partition1 throughpartition5.

Per fare in modo che il AWS Glue crawler crei due tabelle separate, impostate il crawler in modo che abbia due origini dati e, s3://amzn-s3-demo-bucket/folder1/table1/ come illustrato nella procedura seguente. s3://amzn-s3-demo-bucket/folder1/table2

Per aggiungere un data store S3 a un crawler esistente in AWS Glue

Accedi a AWS Management Console e apri la console all' AWS Glue indirizzo. https://console.aws.amazon.com/glue/
Nel riquadro di navigazione, selezionare Crawlers (Crawler).
Scegli il link al tuo crawler, quindi scegli Edit (Modifica).
Per Fase 2: Scegli origini dei dati e classificatori, scegli Edit (Modifica).
Per Origini dati e cataloghi, scegli Aggiungi un'origine dati.
Nella finestra di dialogo Add data source (Aggiungi origine dei dati), per S3 path (Percorso S3), scegli Browse (Sfoglia).
Scegli il bucket che vuoi utilizzare e poi seleziona Choose (Scegli).

L'origine dei dati che hai aggiunto viene visualizzata nell'elenco Data sources (Origini dei dati).
Scegli Next (Successivo).
Nella pagina Configure security settings (Configura impostazioni di sicurezza), crea o scegli un ruolo IAM per il crawler, quindi scegli Next (Avanti).
Assicurati che il percorso S3 termini con una barra finale, quindi scegli Add an S3 data source (Aggiungi un'origine dei dati S3).
Nella pagina Set output and scheduling (Imposta l'output e la pianificazione), per Output configuration (Configurazione dell'output), scegli il database di destinazione.
Scegli Next (Successivo).
Nella pagina Review and update (Verifica e aggiorna), rivedi le scelte che hai fatto. Per modificare un passaggio, scegli Edit (Modifica).
Scegli Aggiorna.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Usa un crawler per aggiungere una tabella

Pianifica un crawler

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Usa più fonti di dati con un crawler

Per aggiungere un data store S3 a un crawler esistente in AWS Glue

Questa pagina ti è stata utile?

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?