Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen eines einzelnen Schemas für jeden Amazon S3 S3-Include-Pfad
Standardmäßig gilt: Wenn ein Crawler Tabellen für in Amazon S3 gespeicherte Daten definiert, berücksichtigt er sowohl die Datenkompatibilität als auch die Schema-Ähnlichkeit. Zu den Datenkompatibilitätsfaktoren, die berücksichtigt werden, gehören, ob die Daten dasselbe Format (z. B.JSON), denselben Komprimierungstyp (z. B.GZIP) haben, die Struktur des Amazon S3 S3-Pfads und andere Datenattribute. Die Ähnlichkeit des Schemas ist ein Maß dafür, wie ähnlich die Schemas separater Amazon-S3-Objekte sind.
Um diese Option veranschaulichen, nehmen Sie an, Sie definieren einen Crawler mit dem Include-Pfad s3://bucket/table1/
. Wenn der Crawler ausgeführt wird, findet er zwei JSON Dateien mit den folgenden Eigenschaften:
-
Datei 1 –
S3://bucket/table1/year=2017/data1.json
-
Dateiinhalt –
{“A”: 1, “B”: 2}
-
Schema –
A:int, B:int
-
Datei 2 –
S3://bucket/table1/year=2018/data2.json
-
Dateiinhalt –
{“C”: 3, “D”: 4}
-
Schema –
C: int, D: int
Standardmäßig erstellt der Crawler zwei Tabellen namens year_2017
und year_2018
, da die Schemas nicht ausreichend ähnlich sind. Wenn jedoch die Option Create a single schema for each S3 path (Erstellen eines einzelnen Schemas für jeden S3-Pfad) ausgewählt ist, und wenn die Daten kompatibel sind, erstellt der Crawler eine Tabelle. Die Tabelle hat das Schema A:int,B:int,C:int,D:int
und partitionKey
year:string
.