Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Mögliche Formate für Eingaben und Ausgaben in AWS Glue für Spark
Diese Seiten bieten Informationen zur Feature-Unterstützung und Konfigurationsparameter für Datenformate, die von AWS Glue für Spark unterstützt werden. Im Folgenden finden Sie eine Beschreibung der Verwendung und Anwendbarkeit dieser Informationen.
Feature-Unterstützung für alle Datenformate in AWS Glue
Jedes Datenformat unterstützt möglicherweise unterschiedliche AWS Glue-Funktionen. Die folgenden allgemeinen Funktionen werden je nach Formattyp möglicherweise nicht unterstützt. Informieren Sie sich in der Dokumentation für Ihr Datenformat, um zu verstehen, wie Sie unsere Funktionen zur Erfüllung Ihrer Anforderungen nutzen können.
Lesen | AWS Glue kann dieses Datenformat ohne zusätzliche Ressourcen wie Konnektoren erkennen und interpretieren. |
Schreiben | AWS Glue kann Daten in diesem Format ohne zusätzliche Ressourcen schreiben. Sie können Bibliotheken von Drittanbietern in Ihren Job einbeziehen und Standardfunktionen von Apache Spark verwenden, um Daten wie in anderen Spark-Umgebungen zu schreiben. Weitere Informationen einschließlich Bibliotheken finden Sie unter Python-Bibliotheken mit AWS Glue verwenden. |
Streaming gelesen | AWS Glue kann dieses Datenformat aus einem Apache Kafka-, Amazon Managed Streaming for Apache Kafka- oder Amazon Kinesis-Nachrichtenstream erkennen und interpretieren. Wir erwarten, dass Streams Daten in einem konsistenten Format präsentieren, sodass sie als DataFrames eingelesen werden. |
Gruppieren von kleinen Dateien | AWS Glue kann Dateien für Batch-Arbeit gruppieren, die bei der Ausführung von AWS Glue-Transformationen an jeden Knoten gesendet wird. Dies kann die Leistung für Workloads mit großen Mengen kleiner Dateien erheblich verbessern. Weitere Informationen finden Sie unter Zusammenfassen von Eingabedateien in größeren Gruppen beim Lesen. |
Auftrags-Lesezeichen | AWS Glue kann den Fortschritt von Transformationen verfolgen, die dieselbe Arbeit an demselben Datensatz über Auftragsläufe hinweg mit Job-Lesezeichen ausführen. Dies kann die Leistung für Workloads mit Datensätzen verbessern, bei denen seit der letzten Auftragsausführung nur an neuen Daten gearbeitet werden muss. Weitere Informationen finden Sie unter Verfolgen von verarbeiteten Daten mit Auftragslesezeichen. |
Parameter, die für die Interaktion mit Datenformaten in AWS Glue verwendet werden
Gewisse AWS Glue-Verbindungstypen unterstützen mehrere format
-Typen, für die Sie Informationen über Ihr Datenformat mit einem format_options
-Objekt bei Verwendung von Methoden wie GlueContext.write_dynamic_frame.from_options
angeben müssen.
-
s3
– Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue: S3-Verbindungsparameter. Sie können auch die Dokumentation für die Methoden anzeigen, die diesen Verbindungstyp unterstützt: create_dynamic_frame_from_options und write_dynamic_frame_from_options in Python sowie die entsprechende Scala-Methoden def-Format getSourceWith und def-Format getSinkWith. -
kinesis
– Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue: Kinesis-Verbindungsparameter. Sie können auch die Dokumentation für die Methode anzeigen, die diesen Verbindungstyp unterstützt: create_data_frame_from_options und die entsprechende Scala-Methode def createDataFrame FromOptions. -
kafka
– Weitere Informationen finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue: Kafka-Verbindungsparameter. Sie können auch die Dokumentation für die Methode anzeigen, die diesen Verbindungstyp unterstützt: create_data_frame_from_options und die entsprechende Scala-Methode def createDataFrame FromOptions.
Einige Verbindungstypen erfordern format_options
nicht. Im Verlauf der normalen Verwendung ruft eine JDBC-Verbindung zu einer relationalen Datenbank zum Beispiel Daten in einem konsistenten, tabellarischen Datenformat ab. Daher wäre für das Lesen von einer JDBC-Verbindung format_options
nicht erforderlich.
Für einige Methoden zum Lesen und Schreiben von Daten in Glue ist format_options
nicht erforderlich. Verwenden Sie zum Beispiel GlueContext.create_dynamic_frame.from_catalog
mit AWS Glue-Crawlern. Crawler bestimmen die Form Ihrer Daten. Bei der Verwendung von Crawlern wird ein AWS Glue Klassifizierer Ihre Daten untersuchen, um kluge Entscheidungen über die Darstellung Ihres Datenformats zu treffen. Er speichert dann eine Darstellung Ihrer Daten im AWS Glue-Datenkatalog, der innerhalb eines AWS Glue ETL-Skriptes zum Abrufen Ihrer Daten mit der GlueContext.create_dynamic_frame.from_catalog
-Methode verwendet werden kann. Crawler machen es überflüssig, Informationen über Ihr Datenformat manuell anzugeben.
Für Aufträge, die Zugriff auf von AWS Lake Formation verwaltete Tabellen haben, unterstützt AWS Glue das Lesen und Schreiben aller Formate, die von den von Lake Formation verwalteten Tabellen unterstützt werden. Eine aktuelle Liste von unterstützten Formaten für von AWS Lake Formation verwaltete Tabellen finden Sie unter Hinweise und Einschränkungen für verwaltete Tabellen im AWS Lake Formation-Entwicklerhandbuch.
Anmerkung
Zum Schreiben von Apache Parquet unterstützt AWS Glue ETL das Schreiben in eine verwaltete Tabelle nur, indem eine Option für einen benutzerdefinierten Parquet-Schreibertyp angegeben wird, der für dynamische Frames optimiert ist. Beim Schreiben an eine verwaltete Tabelle mit dem parquet
-Format sollten Sie den Schlüssel useGlueParquetWriter
mit einem Wert von true
den Tabellenparametern hinzufügen.
Themen
- Verwenden des CSV-Formats in AWS-Glue
- Verwenden des Parquet-Formats in AWS-Glue
- Verwenden des XML-Formats in AWS-Glue
- Verwenden des Avro-Formats in AWS-Glue
- Verwenden des grokLog-Formats in AWS-Glue
- Verwenden des Ion-Formats in AWS-Glue
- Verwenden des JSON-Formats in AWS Glue
- Verwenden des ORC-Formats in AWS-Glue
- Verwendung von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen
- Freigegebene Konfigurationsreferenz
Freigegebene Konfigurationsreferenz
Sie können die folgenden format_options
-Werte mit jedem Formattyp verwenden.
-
attachFilename
– Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird der Name der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet. -
attachTimestamp
– Eine Zeichenfolge im entsprechenden Format, die als Spaltenname verwendet werden soll. Wenn Sie diese Option angeben, wird die Änderungszeit der Quelldatei für den Datensatz an den Datensatz angefügt. Der Parameterwert wird als Spaltenname verwendet.