Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Transformieren Sie Daten mit AWS Glue verwalteten Transformationen
AWS Glue Studio bietet zwei Arten von Transformationen:
-
AWS Glue-native Transformationen – stehen allen Benutzern zur Verfügung und werden von AWS Glue verwaltet.
-
Benutzerdefinierte visuelle Transformationen – ermöglicht Ihnen das Hochladen Ihrer eigenen Transformationen zur Verwendung in AWS Glue Studio
AWS Glue-verwaltete Datentransformationsknoten
AWS Glue Studio bietet eine Reihe von integrierten Transformationen, die Sie zur Verarbeitung Ihrer Daten verwenden können. Ihre Daten werden in einer Datenstruktur namens a, einer Erweiterung von Apache Spark DynamicFrame
SQLDataFrame
, von einem Knoten im Jobdiagramm zu einem anderen übertragen.
Im vorab ausgefüllten Diagramm für einen Job befindet sich zwischen den Datenquellen- und Datenzielknoten der Transformationsknoten Schema ändern. Sie können diesen Transformationsknoten so konfigurieren, dass er die Daten ändert, oder zusätzliche Transformationen verwenden.
Die folgenden integrierten Transformationen gibt es bei AWS Glue Studio:
-
ChangeSchema: Ordnen Sie Dateneigenschaftsschlüssel in der Datenquelle Dateneigenschaftsschlüsseln im Datenziel zu. Sie können Schlüssel umbenennen, die Datentypen für Schlüssel ändern und die Schlüssel auswählen, die aus dem Datensatz gelöscht werden sollen.
-
SelectFields: Wählen Sie die Dateneigenschaftsschlüssel aus, die Sie behalten möchten.
-
DropFields: Wählen Sie die Dateneigenschaftsschlüssel aus, die Sie löschen möchten.
-
RenameField: Benennt einen einzelnen Dateneigenschaftsschlüssel um.
-
Spigot: Schreiben Sie Beispiele der Daten in einen Amazon-S3-Bucket.
-
Join: Führen Sie zwei Datensätze mit einer Vergleichsphrase für die angegebenen Dateneigenschaftsschlüssel zu einem Datensatz zusammen. Sie können innere, äußere, linke, rechte, linke Hälfte und linke Anti-Joins verwenden.
-
Vereinigung: Kombinieren Sie Zeilen aus mehr als einer Datenquelle, die dasselbe Schema haben.
-
SplitFields: Teilt Dateneigenschaftsschlüssel in zwei Teile auf
DynamicFrames
. Die Ausgabe ist eine Sammlung vonDynamicFrames
: Einer mit ausgewählten Dateneigenschaftsschlüsseln und einer mit den übrigen Dateneigenschaftsschlüsseln. -
SelectFromCollection: Wählen Sie einen
DynamicFrame
aus einer Sammlung vonDynamicFrames
. Die Ausgabe ist der ausgewählteDynamicFrame
. -
FillMissingValues: Suchen Sie nach Datensätzen im Datensatz, bei denen Werte fehlen, und fügen Sie ein neues Feld mit einem vorgeschlagenen Wert hinzu, der durch Imputation bestimmt wird
-
Filter: Teilen Sie ein Datensatz anhand einer Filterbedingung in zwei Datensätze auf.
-
Leere Felder löschen: Entfernt Spalten aus dem Datensatz, wenn alle Werte in der Spalte „Null“ sind.
-
Duplikate löschen: Entfernt Zeilen aus Ihrer Datenquelle, indem entweder ganze Zeilen abgeglichen oder Schlüssel angegeben werden.
-
SQL: Geben Sie SQL Spark-Code in ein Texteingabefeld ein, um die Daten mithilfe einer SQL Abfrage zu transformieren. Die Ausgabe ist ein einzelner
DynamicFrame
. -
Aggregierung: führt eine Berechnung (wie Durchschnitt, Summe, Min, Max) für ausgewählte Felder und Zeilen durch und erstellt ein neues Feld mit den neu berechneten Werten/dem neu berechneten Wert.
-
Abflachen: Extrahiert Felder innerhalb von Strukturen in Felder der obersten Ebene.
-
UUID: Fügen Sie für jede Zeile eine Spalte mit einem Universally Unique Identifier hinzu.
-
Identifikator: Fügt für jede Zeile eine Spalte mit einer numerischen ID hinzu.
-
Zum Zeitstempel: Konvertiert eine Spalte in den Zeitstempeltyp.
-
Zeitstempel formatieren: Konvertiert eine Zeitstempelspalte in eine formatierte Zeichenfolge.
-
Bedingte Router-Transformation: Wenden Sie mehrere Bedingungen auf eingehende Daten an. Jede Zeile der eingehenden Daten wird anhand einer Gruppenfilterbedingung ausgewertet und zu der entsprechenden Gruppe verarbeitet.
-
Transformation einer Verkettung von Spalten: Erstellen Sie eine neue Zeichenfolgenspalte unter Verwendung der Werte anderer Spalten mit einem optionalen Abstandszeichen.
-
Transformation einer geteilten Zeichenfolge: Teilen Sie eine Zeichenfolge mithilfe eines regulären Ausdrucks in ein Array von Token auf, um zu definieren, wie die Aufteilung durchgeführt wird.
-
Transformation von Array zu Spalten: Extrahieren Sie einige oder alle Elemente einer Spalte vom Typ Array in neue Spalten.
-
Transformation „Aktuellen Zeitstempel hinzufügen“: Markieren Sie die Zeilen mit der Uhrzeit, zu der die Daten verarbeitet wurden. Dies ist für Prüfzwecke oder zum Verfolgen der Latenz in der Datenpipeline nützlich.
-
Transformation „Zeilen zu Spalten pivotieren“: Aggregieren Sie eine numerische Spalte, indem Sie eindeutige Werte in ausgewählten Spalten rotieren, die zu neuen Spalten werden. Bei Auswahl mehrerer Spalten werden die Werte verkettet, um die neuen Spalten zu benennen.
-
Transformation „Spalten zu Zeilen entpivotieren“: Konvertieren Sie Spalten in Werte neuer Spalten und erzeugen Sie eine Zeile für jeden eindeutigen Wert.
-
Transformation zur automatischen Balance-Verarbeitung: Verteilen Sie die Daten besser unter den Mitarbeitern. Dies ist nützlich, wenn die Daten unausgeglichen sind oder aufgrund ihrer Quelle keine ausreichende Parallelverarbeitung möglich ist.
-
Transformation für abgeleitete Spalten: Definieren Sie eine neue Spalte auf der Grundlage einer mathematischen Formel oder eines SQL Ausdrucks, in der Sie andere Spalten in den Daten sowie Konstanten und Literale verwenden können.
-
Nachschlage-Transformation: Fügen Sie Spalten aus einer definierten Katalogtabelle hinzu, wenn die Schlüssel mit den definierten Nachschlagespalten in den Daten übereinstimmen.
-
Transformation „Matrix auflösen“ oder „In Zeilen zuordnen“: Extrahieren Sie Werte aus einer verschachtelten Struktur in einzelne Zeilen, die einfacher zu bearbeiten sind.
-
Transformation für den Datensatzabgleich: Rufen Sie eine vorhandene Transformation zur Datenklassifizierung durch Machine Learning zum Datensatzabgleich auf.
-
Transformation zum Entfernen von Nullzeilen: Entfernen Sie Zeilen aus dem Datensatz, deren Spalten alle null oder leer sind.
-
JSONSpaltentransformation analysieren: Analysiert eine Zeichenkettenspalte, die JSON Daten enthält, und konvertiert sie in eine Struktur- oder eine Array-Spalte, je nachdem, ob es sich um ein Objekt oder ein Array JSON handelt.
-
JSONPfadtransformation extrahieren: Extrahiert neue Spalten aus einer JSON Zeichenkettenspalte.
-
Zeichenkettenfragmente aus einem regulären Ausdruck extrahieren: Extrahieren Sie Zeichenfolgenfragmente mithilfe eines regulären Ausdrucks und erstellen Sie daraus eine neue Spalte oder mehrere Spalten, wenn Sie Regex-Gruppen verwenden.
-
Custom transform (benutzerdefinierte Transformation): Geben Sie Programmiercode in ein Texteingabefeld ein, um benutzerdefinierte Transformationen zu verwenden. Die Ausgabe ist eine Sammlung von
DynamicFrames
.