Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Trasforma i dati con AWS Glue trasformazioni gestite
AWS Glue Studio fornisce due tipi di trasformazioni:
-
AWS Glue-trasformazioni native: disponibili per tutti gli utenti e gestite da AWS Glue.
-
Trasformazioni visive personalizzate: ti consentono di caricare le tue trasformazioni da utilizzare in AWS Glue Studio
AWS Glue nodi di trasformazione dei dati gestiti
AWS Glue Studio fornisce una serie di trasformazioni integrate che è possibile utilizzare per elaborare i dati. I dati passano da un nodo nel diagramma di processo a un altro in una struttura di dati denominata DynamicFrame
, che è un'estensione di un SQL Apache Spark DataFrame
.
Nel diagramma precompilato per un processo, tra i nodi di origine dati e di destinazione dati si trova il nodo di trasformazione Modifica schema. È·possibile configurare questo nodo di trasformazione per modificare i dati oppure utilizzare ulteriori trasformazioni.
Le seguenti trasformazioni integrate sono disponibili con AWS Glue Studio:
-
ChangeSchema: mappa le chiavi di proprietà dei dati nell'origine dati alle chiavi di proprietà dei dati nella destinazione dei dati. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.
-
SelectFields: Scegli le chiavi di proprietà dei dati che desideri conservare.
-
DropFields: Scegli le chiavi di proprietà dei dati che desideri eliminare.
-
RenameField: Rinomina una singola chiave di proprietà dei dati.
-
Spigot: scrivi esempi dei dati in un bucket Amazon S3.
-
Join: esegui il join di due set di dati in un set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.
-
Union: combina righe provenienti da più di un'origine dati che hanno lo stesso schema.
-
SplitFields: divide le chiavi delle proprietà dei dati in due
DynamicFrames
. Output è una raccolta diDynamicFrames
: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti. -
SelectFromCollection: Scegline una
DynamicFrame
da una raccolta diDynamicFrames
. L'output è ilDynamicFrame
selezionato. -
FillMissingValues: individua i record nel set di dati che contengono valori mancanti e aggiungi un nuovo campo con un valore suggerito determinato mediante imputazione
-
Filter: divide un set di dati in due, in base a una condizione di filtro.
-
DropNullFields: rimuove le colonne dal set di dati se tutti i valori nella colonna sono "null".
-
Elimina i duplicati: rimuove le righe dall'origine dati consentendo di scegliere se abbinare righe intere o specificare le chiavi.
-
SQL: inserisce il codice SparkSQL in un campo di inserimento testo per utilizzare una query SQL e trasformare i dati. L'output è un singolo
DynamicFrame
. -
Aggregate: esegue un calcolo (ad esempio media, somma, min, max) su campi e righe selezionati e crea un nuovo campo con i valori appena calcolati.
-
Flatten: estrae i campi all'interno delle strutture in campi di primo livello.
-
UUID: aggiunge una colonna con un identificatore univoco universale per ogni riga.
-
Identifier: aggiunge una colonna con un identificatore numerico per ogni riga.
-
To timestamp: converte una colonna in un tipo di timestamp.
-
Format timestamp: converte una colonna di timestamp in una stringa formattata.
-
Conditional Router transform: applica più condizioni ai dati in ingresso. Ogni riga dei dati in ingresso viene valutata in base a una condizione di filtro di gruppo ed elaborata nel gruppo corrispondente.
-
Trasformazione Concatena colonne: crea una nuova colonna di stringhe utilizzando i valori di altre colonne con un distanziatore opzionale.
-
Trasformazione Dividi stringa: suddividi una stringa in un array di token utilizzando un'espressione regolare per definire come viene eseguita la suddivisione.
-
Trasformazione Array a colonne: estrai alcuni o tutti gli elementi di una colonna di tipo array in nuove colonne.
-
Trasformazione Aggiungi timestamp corrente: contrassegna le righe con l'ora in cui i dati sono stati elaborati. Ciò è utile per scopi di controllo o per tenere traccia della latenza nella pipeline di dati.
-
Trasformazione Pivot: righe a colonne: aggrega una colonna numerica ruotando valori univoci su colonne selezionate che diventano nuove colonne. Se sono selezionate più colonne, i valori vengono concatenati per denominare le nuove colonne.
-
Trasformazione Elimina pivot: righe a colonne: converti le colonne in valori di nuove colonne generando una riga per ogni valore univoco.
-
Trasformazione Bilancia automaticamente elaborazione: ridistribuisci i dati tra i worker per migliorare le prestazioni. Ciò è utile nei casi in cui i dati non sono bilanciati o, poiché provengono dall'origine, non consentono un'elaborazione parallela sufficiente.
-
Trasformazione Colonna derivata: definisci una nuova colonna basata su una formula matematica o un'espressione SQL in cui è possibile utilizzare altre colonne nei dati, oltre a costanti e valori letterali.
-
Trasformazione Ricerca: aggiungi colonne da una tabella di catalogo definita quando le chiavi corrispondono alle colonne di ricerca definite nei dati.
-
Trasformazione Espandi array o mappa: estrae i valori da una struttura annidata in singole righe più facili da manipolare.
-
Trasformazione Corrispondenza dei record: richiama una trasformazione di classificazione dei dati di machine learning Corrispondenza dei record esistente.
-
Trasformazione Rimuovi righe nulle: rimuove dal set di dati le righe che hanno tutte le colonne come nulle o vuote.
-
Trasformazione Analizza colonna JSON: analizza una colonna di stringhe contenente dati JSON e convertila in una struttura o in una colonna di array, a seconda che il JSON sia rispettivamente un oggetto o un array.
-
Trasformazione Estrai percorso JSON: estrai nuove colonne da una colonna di stringhe JSON.
-
Trasformazione Estrai frammenti di stringa con un'espressione regolare: estrai frammenti di stringa utilizzando un'espressione regolare e crea a partire da essa una nuova colonna o anche più colonne, se si utilizzano gruppi di espressioni regolari.
-
Custom transform: inserisce il codice in un campo di inserimento testo per utilizzare le trasformazioni personalizzate. L'output è una raccolta di
DynamicFrames
.