Erstellen eines einzelnen Schemas für jeden Amazon S3 S3-Include-Pfad

Standardmäßig gilt: Wenn ein Crawler Tabellen für in Amazon S3 gespeicherte Daten definiert, berücksichtigt er sowohl die Datenkompatibilität als auch die Schema-Ähnlichkeit. Zu den Datenkompatibilitätsfaktoren, die berücksichtigt werden, gehören, ob die Daten dasselbe Format (z. B.JSON), denselben Komprimierungstyp (z. B.GZIP) haben, die Struktur des Amazon S3 S3-Pfads und andere Datenattribute. Die Ähnlichkeit des Schemas ist ein Maß dafür, wie ähnlich die Schemas separater Amazon-S3-Objekte sind.

Um diese Option veranschaulichen, nehmen Sie an, Sie definieren einen Crawler mit dem Include-Pfad s3://bucket/table1/. Wenn der Crawler ausgeführt wird, findet er zwei JSON Dateien mit den folgenden Eigenschaften:

Datei 1 – S3://bucket/table1/year=2017/data1.json
Dateiinhalt – {“A”: 1, “B”: 2}
Schema – A:int, B:int

Datei 2 – S3://bucket/table1/year=2018/data2.json
Dateiinhalt – {“C”: 3, “D”: 4}
Schema – C: int, D: int

Standardmäßig erstellt der Crawler zwei Tabellen namens year_2017 und year_2018, da die Schemas nicht ausreichend ähnlich sind. Wenn jedoch die Option Create a single schema for each S3 path (Erstellen eines einzelnen Schemas für jeden S3-Pfad) ausgewählt ist, und wenn die Daten kompatibel sind, erstellt der Crawler eine Tabelle. Die Tabelle hat das Schema A:int,B:int,C:int,D:int und partitionKey year:string.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verhindern, dass ein Crawler das Schema ändert

Angabe des Tabellenspeicherorts und der Partitionierungsebene