Specificazione della posizione della tabella e del livello di partizionamento - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Specificazione della posizione della tabella e del livello di partizionamento

Per impostazione predefinita, quando un crawler definisce tabelle per i dati archiviati in Amazon S3, tenta di unire gli schemi e creare tabelle di primo livello (). year=2019 In alcuni casi, è possibile che, invece di creare una tabella per la cartella month=Jan come previsto, il crawler crei una partizione poiché una cartella di pari livello (month=Mar) è stata unita alla stessa tabella.

L'opzione crawler a livello di tabella offre la flessibilità necessaria per indicare al crawler dove si trovano le tabelle e come si desidera creare le partizioni. Quando si specifica un Table level (Livello della tabella), la tabella viene creata a quel livello assoluto dal bucket Amazon S3.

Raggruppamento crawler con livello di tabella specificato come livello 2.

Quando si configura il crawler nella console, è possibile specificare un valore per l'opzione crawler Table level (Livello della tabella). Il valore deve essere un numero intero positivo che indica la posizione della tabella (il livello assoluto nel set di dati). Il livello per la cartella di livello superiore è 1. Ad esempio, per il percorso mydataset/year/month/day/hour, se il livello è impostato su 3, la tabella viene creata nella posizione mydataset/year/month.

AWS Management Console
  1. Accedi a e apri la console all'indirizzo. AWS Management Console AWS Glue https://console.aws.amazon.com/glue/

  2. Scegli Crawler nel Data Catalog.

  3. Quando configuri un crawler, in Output e pianificazione, scegli Livello di tabella in Opzioni avanzate.

Specifica di un livello di tabella nella configurazione del crawler.
AWS CLI

Quando configurate il crawler utilizzando il AWS CLI, impostate il configuration parametro come mostrato nel codice di esempio:

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "Grouping": { "TableLevelConfiguration": 2 }}'
API

Quando configurate il crawler utilizzando ilAPI, impostate il Configuration campo con una rappresentazione in formato stringa del seguente JSON oggetto, ad esempio:

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

In questo esempio, impostate l'opzione Table level disponibile nella console all'interno del modello: CloudFormation

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"