Mögliche Formate für Eingaben und Ausgaben in AWS Glue für Spark - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Mögliche Formate für Eingaben und Ausgaben in AWS Glue für Spark

Diese Seiten bieten Informationen zur Feature-Unterstützung und Konfigurationsparameter für Datenformate, die von AWS Glue für Spark unterstützt werden. Im Folgenden finden Sie eine Beschreibung der Verwendung und Anwendbarkeit dieser Informationen.

Feature-Unterstützung für alle Datenformate in AWS Glue

Jedes Datenformat unterstützt möglicherweise unterschiedliche AWS Glue-Funktionen. Die folgenden allgemeinen Funktionen werden je nach Formattyp möglicherweise nicht unterstützt. Informieren Sie sich in der Dokumentation für Ihr Datenformat, um zu verstehen, wie Sie unsere Funktionen zur Erfüllung Ihrer Anforderungen nutzen können.

Lesen AWS Glue kann dieses Datenformat ohne zusätzliche Ressourcen wie Konnektoren erkennen und interpretieren.
Schreiben AWS Glue kann Daten in diesem Format ohne zusätzliche Ressourcen schreiben. Sie können Bibliotheken von Drittanbietern in Ihren Job einbeziehen und Standardfunktionen von Apache Spark verwenden, um Daten wie in anderen Spark-Umgebungen zu schreiben. Weitere Informationen einschließlich Bibliotheken finden Sie unter Python-Bibliotheken mit AWS Glue verwenden.
Streaming gelesen AWS Glue kann dieses Datenformat aus einem Apache Kafka-, Amazon Managed Streaming for Apache Kafka- oder Amazon Kinesis-Nachrichtenstream erkennen und interpretieren. Wir erwarten, dass Streams Daten in einem konsistenten Format präsentieren, sodass sie als DataFrames eingelesen werden.
Gruppieren von kleinen Dateien AWS Glue kann Dateien für Batch-Arbeit gruppieren, die bei der Ausführung von AWS Glue-Transformationen an jeden Knoten gesendet wird. Dies kann die Leistung für Workloads mit großen Mengen kleiner Dateien erheblich verbessern. Weitere Informationen finden Sie unter Zusammenfassen von Eingabedateien in größeren Gruppen beim Lesen.
Auftrags-Lesezeichen AWS Glue kann den Fortschritt von Transformationen verfolgen, die dieselbe Arbeit an demselben Datensatz über Auftragsläufe hinweg mit Job-Lesezeichen ausführen. Dies kann die Leistung für Workloads mit Datensätzen verbessern, bei denen seit der letzten Auftragsausführung nur an neuen Daten gearbeitet werden muss. Weitere Informationen finden Sie unter Verfolgen von verarbeiteten Daten mit Auftragslesezeichen.

Parameter, die für die Interaktion mit Datenformaten in AWS Glue verwendet werden

Gewisse AWS Glue-Verbindungstypen unterstützen mehrere format-Typen, für die Sie Informationen über Ihr Datenformat mit einem format_options-Objekt bei Verwendung von Methoden wie GlueContext.write_dynamic_frame.from_options angeben müssen.

Einige Verbindungstypen erfordern format_options nicht. Im Verlauf der normalen Verwendung ruft eine JDBC-Verbindung zu einer relationalen Datenbank zum Beispiel Daten in einem konsistenten, tabellarischen Datenformat ab. Daher wäre für das Lesen von einer JDBC-Verbindung format_options nicht erforderlich.

Für einige Methoden zum Lesen und Schreiben von Daten in Glue ist format_options nicht erforderlich. Verwenden Sie zum Beispiel GlueContext.create_dynamic_frame.from_catalog mit AWS Glue-Crawlern. Crawler bestimmen die Form Ihrer Daten. Bei der Verwendung von Crawlern wird ein AWS Glue Klassifizierer Ihre Daten untersuchen, um kluge Entscheidungen über die Darstellung Ihres Datenformats zu treffen. Er speichert dann eine Darstellung Ihrer Daten im AWS Glue-Datenkatalog, der innerhalb eines AWS Glue ETL-Skriptes zum Abrufen Ihrer Daten mit der GlueContext.create_dynamic_frame.from_catalog-Methode verwendet werden kann. Crawler machen es überflüssig, Informationen über Ihr Datenformat manuell anzugeben.

Für Aufträge, die Zugriff auf von AWS Lake Formation verwaltete Tabellen haben, unterstützt AWS Glue das Lesen und Schreiben aller Formate, die von den von Lake Formation verwalteten Tabellen unterstützt werden. Eine aktuelle Liste von unterstützten Formaten für von AWS Lake Formation verwaltete Tabellen finden Sie unter Hinweise und Einschränkungen für verwaltete Tabellen im AWS Lake Formation-Entwicklerhandbuch.

Anmerkung

Zum Schreiben von Apache Parquet unterstützt AWS Glue ETL das Schreiben in eine verwaltete Tabelle nur, indem eine Option für einen benutzerdefinierten Parquet-Schreibertyp angegeben wird, der für dynamische Frames optimiert ist. Beim Schreiben an eine verwaltete Tabelle mit dem parquet-Format sollten Sie den Schlüssel useGlueParquetWriter mit einem Wert von true den Tabellenparametern hinzufügen.

Freigegebene Konfigurationsreferenz

Sie können die folgenden format_options-Werte mit jedem Formattyp verwenden.

  • attachFilename – Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird der Name der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet.

  • attachTimestamp – Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird die Änderungszeit der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet.