Verwenden von Dateien in Amazon S3 für die Datenquelle - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Dateien in Amazon S3 für die Datenquelle

Wenn Sie Amazon S3 als Datenquelle auswählen, haben Sie die Wahl zwischen:

  • einer Data-Catalog-Datenbank und -tabelle;

  • einem Bucket, einem Ordner oder einer Datei in Amazon S3.

Wenn Sie einen Amazon-S3-Bucket als Datenquelle verwenden, erkennt AWS Glue das Schema der Daten am angegebenen Speicherort anhand einer der Dateien oder mithilfe der von Ihnen angegebenen Beispieldatei. Die Schemaerkennung wird aktiviert, wenn Sie die Schaltfläche Infer schema (Schema ableiten) auswählen. Wenn Sie den Amazon-S3-Speicherort oder die Beispieldatei ändern, müssen Sie erneut Infer schema (Schema ableiten) auswählen, um die Schemaerkennung mithilfe der neuen Informationen durchzuführen.

Einen Datenquellknoten konfigurieren, der direkt aus Dateien in Amazon S3 liest
  1. Rufen Sie im visuellen Editor einen neuen oder einen gespeicherten Auftrag auf.

  2. Wählen Sie im Auftragsdiagramm einen Datenquellknoten für eine Amazon-S3-Quelle aus.

  3. Wählen Sie die Registerkarte Data source properties (Datenquelleneigenschaften) aus und geben Sie die folgenden Informationen ein:

    • S3 source type (S3-Quelltyp): (Nur für Amazon-S3-Datenquellen) Wählen Sie die Option S3 location (S3-Speicherort) aus.

    • S3 URL: Geben Sie den Pfad zur/zum Amazon-S3-Bucket, -Ordner oder -Datei ein, wo die Daten für Ihren Auftrag liegen. Sie können mit Browse S3 (S3 durchsuchen) den Pfad aus den Speicherorten auswählen, die für Ihr Konto verfügbar sind.

    • Recursive (Rekursiv): Wählen Sie diese Option aus, wenn Sie mit AWS Glue Daten aus Dateien in untergeordneten Ordnern am S3-Speicherort lesen möchten.

      Wenn die untergeordneten Ordner partitionierte Daten enthalten, fügt AWS Glue dem Data Catalog keine Partitionsinformationen hinzu, die in den Ordnernamen angegeben sind. Sehen Sie sich beispielsweise die folgenden Ordner in Amazon S3 an:

      S3://sales/year=2019/month=Jan/day=1 S3://sales/year=2019/month=Jan/day=2

      Wenn Sie Recursive (Rekursiv) auswählen und sales als S3-Speicherort angeben, dann liest AWS Glue die Daten in allen untergeordneten Ordnern, erstellt jedoch keine Partitionen für Jahr, Monat oder Tag.

    • Data format (Datenformat): Wählen Sie das Format, in dem die Daten gespeichert werden. Sie können JSON, CSV oder Parquet wählen. Der ausgewählte Wert teilt dem AWS Glue-Auftrag mit, wie die Daten aus der Quelldatei zu lesen sind.

      Anmerkung

      Wenn Sie nicht das richtige Format für Ihre Daten auswählen, kann AWS Glue das Schema zwar mitunter korrekt ableiten, der Auftrag kann aber die Daten aus der Quelldatei nicht korrekt analysieren.

      Je nach gewähltem Format können Sie zusätzliche Konfigurationsoptionen eingeben.

      • JSON (JavaScript Object Notation)

        • JsonPath (JSON-Pfad): Geben Sie einen JSON-Pfad ein, der auf ein Objekt verweist, mit dem das Tabellenschema definiert wird. JSON-Pfadausdrücke beziehen sich immer auf eine JSON-Struktur, genauso wie auch XPath-Ausdrücke in Kombination mit einem XML-Dokument verwendet werden. Das „Root-Element-Objekt“ im JSON-Pfad ist stets mit $ gekennzeichnet, auch wenn es sich um ein Objekt oder ein Array handelt. Der JSON-Pfad kann in Punkt- oder Klammer-Notation angegeben werden.

          Weitere Informationen zum JSON-Pfad finden Sie unter JsonPath auf der Website von GitHub.

        • Records in source files can span multiple lines (Akten in Quelldateien können sich über mehrere Zeilen erstrecken): Wählen Sie diese Option, wenn eine einzelne Akte sich über mehrere Zeilen in der CSV-Datei erstrecken kann.

      • CSV (Comma Separated Values, durch Komma getrennte Werte)

        • Delimiter (Trennzeichen): Geben Sie das Trennzeichen für Spalteneinträge in der Zeile an, etwa ; oder ,.

        • Escape character (Escape-Zeichen): Geben Sie ein Zeichen ein, das als Escape-Zeichen verwendet werden soll. Zeichen, die unmittelbar auf dieses Escape-Zeichen folgen, werden nicht als Trennzeichen interpretiert.

        • Quote character (Zitatzeichen): Geben Sie das Zeichen ein, mit dem separate Zeichenfolgen in einem einzelnen Wert gruppiert werden sollen. Beispielsweise wählen Sie die Option Double quote (") (Doppeltes Anführungszeichen), wenn Sie Werte wie "This is a single value" in der CSV-Datei haben.

        • Records in source files can span multiple lines (Akten in Quelldateien können sich über mehrere Zeilen erstrecken): Wählen Sie diese Option, wenn eine einzelne Akte sich über mehrere Zeilen in der CSV-Datei erstrecken kann.

        • First line of source file contains column headers (Erste Zeile der Quelldatei enthält Spaltenüberschriften): Wählen Sie diese Option, wenn die erste Zeile in der CSV-Datei Spaltenüberschriften anstelle von Daten enthält.

      • Parquet (Spaltenweise Speicherung von Apache Parquet)

        Für Daten im Parquet-Format gibt es keine zusätzlichen Einstellungen.

    • Partition predicate (Partitionsprädikat): Um die Daten zu partitionieren, die aus der Datenquelle gelesen werden, geben Sie einen Booleschen Ausdruck ein, der auf Spark SQL nur mit Partitionierungsspalten basiert. Beispiel: "(year=='2020' and month=='04')"

    • Advanced options (Erweitert): Klappen Sie diesen Abschnitt aus, wenn AWS Glue das Schema Ihrer Daten basierend auf einer bestimmten Datei erkennen soll.

      • Schema inference (Schemainferenz): Wählen Sie die Option Choose a sample file from S3 (Beispieldatei aus S3 auswählen) aus, wenn Sie eine bestimmte Datei und nicht die von AWS Glue ausgesuchte verwenden möchten.

      • Auto-sampled file (Automatische Beispieldatei): Geben Sie den Pfad zur Datei in Amazon S3 ein, die zum Ableiten des Schemas verwendet werden soll.

      Wenn Sie einen Datenquellknoten bearbeiten und die ausgewählte Beispieldatei ändern, wählen Sie die Option Reload Schema (Schema erneut laden) aus, um das Schema mithilfe der neuen Beispieldatei zu erkennen.

  4. Wählen Sie die Schaltfläche Infer schema (Schema ableiten), um das Schema der Quelldateien in Amazon S3 zu erkennen. Wenn Sie den Amazon-S3-Speicherort oder die Beispieldatei ändern, müssen Sie erneut Infer schema (Schema ableiten) auswählen, um das Schema mithilfe der neuen Informationen abzuleiten.