Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS-Glue ruft Daten aus Quellen ab und schreibt Daten an Ziele, die in verschiedenen Datenformaten gespeichert und transportiert werden. Wenn Ihre Daten im Ion-Datenformat gespeichert oder transportiert werden, stellt Ihnen dieses Dokument die verfügbaren Funktionen zur Verwendung Ihrer Daten in AWS-Glue vor.
AWS-Glue unterstützt die Verwendung des Ion-Formats. Dieses Format stellt Datenstrukturen (die nicht zeilen- oder spaltenbasiert sind) in austauschbaren Binär- und Klartext-Darstellungen dar. Eine Einführung in das Format durch die Autoren finden Sie unter Amazon Ion
Sie können AWS Glue zum Lesen von Ion-Dateien von Amazon S3 verwenden. Sie können bzip
- und gzip
-Archive mit Ion-Dateien aus S3 lesen. Sie konfigurieren das Komprimierungsverhalten auf S3-Verbindungsparameter statt in der auf dieser Seite besprochenen Konfiguration.
Die folgende Tabelle zeigt, welche gängigen AWS-Glue-Operationen die Option Ion-Format unterstützen.
Lesen | Write (Schreiben) | Streaming gelesen | Gruppieren von kleinen Dateien | Auftrags-Lesezeichen |
---|---|---|---|---|
Unterstützt | Nicht unterstützt | Nicht unterstützt | Unterstützt | Nicht unterstützt |
Beispiel: Lesen von Ion-Dateien und Ordnern aus S3
Voraussetzungen: Sie benötigen die S3-Pfade (s3path
) zu den Ion-Dateien oder -Ordnern, die Sie lesen möchten.
Konfiguration: Geben Sie in Ihren Funktionsoptionen format="json"
an. Verwenden Sie in Ihrem connection_options
den paths
-Schlüssel, um Ihren s3path
anzugeben. Sie können konfigurieren, wie der Reader mit S3 in der connection_options
interagiert. Einzelheiten finden Sie unter Verbindungstypen und Optionen für ETL in AWS Glue: Referenz zur Amazon-S3-Verbindungsoption.
Das folgende AWS-Glue-ETL-Skript zeigt den Prozess des Lesens von Ion-Dateien oder -Ordnern aus S3:
Verwenden Sie für dieses Beispiel die Methode create_dynamic_frame.from_options.
# Example: Read ION from S3
from pyspark.context import SparkContext
from awsglue.context import GlueContext
sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
dynamicFrame = glueContext.create_dynamic_frame.from_options(
connection_type="s3",
connection_options={"paths": ["s3://s3path
"]},
format="ion"
)
Ion-Konfigurationsreferenz
Es gibt keine format_options
-Werte für format="ion"
.