Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Quando un AWS Glue crawler esegue la scansione di Amazon S3 e rileva più directory, utilizza un'euristica per determinare dove si trova la radice di una tabella nella struttura di directory e quali directory sono partizioni per la tabella. Nei casi in cui gli schemi rilevati in due o più directory siano analoghi, il crawler potrebbe trattarli come partizioni invece di tabelle separate. Un metodo per aiutare il crawler a rilevare singole tabelle è aggiungere la directory radice di ciascuna tabella come datastore per il crawler.
Le seguenti partizioni in Amazon S3 sono un esempio:
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
Se lo schema di table1
e table2
è simile e una singola origine dati è impostata su s3://amzn-s3-demo-bucket/folder1/
in AWS Glue, il crawler può creare una singola tabella con due colonne di partizione: una colonna di partizione che contiene table1
e table2
e una seconda colonna di partizione che contiene partition1
throughpartition5
.
Per fare in modo che il AWS Glue crawler crei due tabelle separate, impostate il crawler in modo che abbia due origini dati e, s3://amzn-s3-demo-bucket/folder1/table1/
come illustrato nella procedura seguente. s3://amzn-s3-demo-bucket/folder1/table2
Per aggiungere un data store S3 a un crawler esistente in AWS Glue
Accedi a AWS Management Console e apri la console all' AWS Glue indirizzo. https://console.aws.amazon.com/glue/
-
Nel riquadro di navigazione, selezionare Crawlers (Crawler).
-
Scegli il link al tuo crawler, quindi scegli Edit (Modifica).
-
Per Fase 2: Scegli origini dei dati e classificatori, scegli Edit (Modifica).
-
Per Origini dati e cataloghi, scegli Aggiungi un'origine dati.
-
Nella finestra di dialogo Add data source (Aggiungi origine dei dati), per S3 path (Percorso S3), scegli Browse (Sfoglia).
-
Scegli il bucket che vuoi utilizzare e poi seleziona Choose (Scegli).
L'origine dei dati che hai aggiunto viene visualizzata nell'elenco Data sources (Origini dei dati).
-
Scegli Next (Successivo).
-
Nella pagina Configure security settings (Configura impostazioni di sicurezza), crea o scegli un ruolo IAM per il crawler, quindi scegli Next (Avanti).
-
Assicurati che il percorso S3 termini con una barra finale, quindi scegli Add an S3 data source (Aggiungi un'origine dei dati S3).
-
Nella pagina Set output and scheduling (Imposta l'output e la pianificazione), per Output configuration (Configurazione dell'output), scegli il database di destinazione.
-
Scegli Next (Successivo).
-
Nella pagina Review and update (Verifica e aggiorna), rivedi le scelte che hai fatto. Per modificare un passaggio, scegli Edit (Modifica).
-
Scegli Aggiorna.