Angabe des Tabellenspeicherorts und der Partitionierungsebene - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Angabe des Tabellenspeicherorts und der Partitionierungsebene

Wenn ein Crawler Tabellen für in Amazon S3 gespeicherte Daten definiert, versucht der Crawler standardmäßig, Schemas zusammenzuführen und Tabellen der obersten Ebene zu erstellen (). year=2019 In einigen Fällen kann es vorkommen, dass der Crawler eine Tabelle für den Ordner month=Jan erstellen soll aber stattdessen eine Partition erstellt, da ein Ordner der gleichen Ebene (month=Mar) in dieselbe Tabelle gespeichert wurde.

Die Crawler-Option auf Tabellenebene bietet Ihnen die Flexibilität, dem Crawler mitzuteilen, wo sich die Tabellen befinden und wie Partitionen erstellt werden sollen. Wenn Sie eine Tabellen-Ebene angeben, wird die Tabelle auf dieser absoluten Ebene aus dem Amazon S3 Bucket erstellt.

Crawler-Gruppierung mit Tabellenebene, die als Ebene 2 angegeben ist.

Wenn Sie den Crawler auf der Konsole konfigurieren, können Sie einen Wert für die Crawler-Option Tabellen-Ebene angeben. Der Wert muss eine positive Ganzzahl sein, die die Tabellenposition (die absolute Ebene im Datensatz) angibt. Die Ebene für den Ordner der obersten Ebene ist 1. Beispiel: Wenn die Ebene auf 3 festgelegt wurde, wird die Tabelle für den Pfad mydataset/year/month/day/hour am Speicherort mydataset/year/month erstellt.

Console
Geben Sie eine Tabellenebene in der Crawler-Konfiguration an.
API

Wenn Sie den Crawler mithilfe von konfigurierenAPI, geben Sie dem Configuration Feld eine Zeichenfolgendarstellung des folgenden Objekts an, zum Beispiel: JSON

configuration = jsonencode( { "Version": 1.0, "Grouping": { TableLevelConfiguration = 2 } })
CloudFormation

In diesem Beispiel legen Sie die Option auf Tabellenebene fest, die in der Konsole in Ihrer CloudFormation Vorlage verfügbar ist:

"Configuration": "{ \"Version\":1.0, \"Grouping\":{\"TableLevelConfiguration\":2} }"