Trasforma i dati con AWS Glue trasformazioni gestite - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Trasforma i dati con AWS Glue trasformazioni gestite

AWS Glue Studio fornisce due tipi di trasformazioni:

  • AWS Glue-trasformazioni native: disponibili per tutti gli utenti e gestite da AWS Glue.

  • Trasformazioni visive personalizzate: ti consentono di caricare le tue trasformazioni da utilizzare in AWS Glue Studio

AWS Glue nodi di trasformazione dei dati gestiti

AWS Glue Studio fornisce una serie di trasformazioni integrate che è possibile utilizzare per elaborare i dati. I dati passano da un nodo nel diagramma di processo a un altro in una struttura di dati denominata DynamicFrame, che è un'estensione di un SQL Apache Spark DataFrame.

Nel diagramma precompilato per un processo, tra i nodi di origine dati e di destinazione dati si trova il nodo di trasformazione Modifica schema. È·possibile configurare questo nodo di trasformazione per modificare i dati oppure utilizzare ulteriori trasformazioni.

Le seguenti trasformazioni integrate sono disponibili con AWS Glue Studio:

  • ChangeSchema: mappa le chiavi di proprietà dei dati nell'origine dati alle chiavi di proprietà dei dati nella destinazione dei dati. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.

  • SelectFields: Scegli le chiavi di proprietà dei dati che desideri conservare.

  • DropFields: Scegli le chiavi di proprietà dei dati che desideri eliminare.

  • RenameField: Rinomina una singola chiave di proprietà dei dati.

  • Spigot: scrivi esempi dei dati in un bucket Amazon S3.

  • Join: esegui il join di due set di dati in un set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.

  • Union: combina righe provenienti da più di un'origine dati che hanno lo stesso schema.

  • SplitFields: divide le chiavi delle proprietà dei dati in dueDynamicFrames. Output è una raccolta di DynamicFrames: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti.

  • SelectFromCollection: Scegline una DynamicFrame da una raccolta diDynamicFrames. L'output è il DynamicFrame selezionato.

  • FillMissingValues: individua i record nel set di dati che contengono valori mancanti e aggiungi un nuovo campo con un valore suggerito determinato mediante imputazione

  • Filter: divide un set di dati in due, in base a una condizione di filtro.

  • DropNullFields: rimuove le colonne dal set di dati se tutti i valori nella colonna sono "null".

  • Elimina i duplicati: rimuove le righe dall'origine dati consentendo di scegliere se abbinare righe intere o specificare le chiavi.

  • SQL: inserisce il codice SparkSQL in un campo di inserimento testo per utilizzare una query SQL e trasformare i dati. L'output è un singolo DynamicFrame.

  • Aggregate: esegue un calcolo (ad esempio media, somma, min, max) su campi e righe selezionati e crea un nuovo campo con i valori appena calcolati.

  • Flatten: estrae i campi all'interno delle strutture in campi di primo livello.

  • UUID: aggiunge una colonna con un identificatore univoco universale per ogni riga.

  • Identifier: aggiunge una colonna con un identificatore numerico per ogni riga.

  • To timestamp: converte una colonna in un tipo di timestamp.

  • Format timestamp: converte una colonna di timestamp in una stringa formattata.

  • Conditional Router transform: applica più condizioni ai dati in ingresso. Ogni riga dei dati in ingresso viene valutata in base a una condizione di filtro di gruppo ed elaborata nel gruppo corrispondente.

  • Trasformazione Concatena colonne: crea una nuova colonna di stringhe utilizzando i valori di altre colonne con un distanziatore opzionale.

  • Trasformazione Dividi stringa: suddividi una stringa in un array di token utilizzando un'espressione regolare per definire come viene eseguita la suddivisione.

  • Trasformazione Array a colonne: estrai alcuni o tutti gli elementi di una colonna di tipo array in nuove colonne.

  • Trasformazione Aggiungi timestamp corrente: contrassegna le righe con l'ora in cui i dati sono stati elaborati. Ciò è utile per scopi di controllo o per tenere traccia della latenza nella pipeline di dati.

  • Trasformazione Pivot: righe a colonne: aggrega una colonna numerica ruotando valori univoci su colonne selezionate che diventano nuove colonne. Se sono selezionate più colonne, i valori vengono concatenati per denominare le nuove colonne.

  • Trasformazione Elimina pivot: righe a colonne: converti le colonne in valori di nuove colonne generando una riga per ogni valore univoco.

  • Trasformazione Bilancia automaticamente elaborazione: ridistribuisci i dati tra i worker per migliorare le prestazioni. Ciò è utile nei casi in cui i dati non sono bilanciati o, poiché provengono dall'origine, non consentono un'elaborazione parallela sufficiente.

  • Trasformazione Colonna derivata: definisci una nuova colonna basata su una formula matematica o un'espressione SQL in cui è possibile utilizzare altre colonne nei dati, oltre a costanti e valori letterali.

  • Trasformazione Ricerca: aggiungi colonne da una tabella di catalogo definita quando le chiavi corrispondono alle colonne di ricerca definite nei dati.

  • Trasformazione Espandi array o mappa: estrae i valori da una struttura annidata in singole righe più facili da manipolare.

  • Trasformazione Corrispondenza dei record: richiama una trasformazione di classificazione dei dati di machine learning Corrispondenza dei record esistente.

  • Trasformazione Rimuovi righe nulle: rimuove dal set di dati le righe che hanno tutte le colonne come nulle o vuote.

  • Trasformazione Analizza colonna JSON: analizza una colonna di stringhe contenente dati JSON e convertila in una struttura o in una colonna di array, a seconda che il JSON sia rispettivamente un oggetto o un array.

  • Trasformazione Estrai percorso JSON: estrai nuove colonne da una colonna di stringhe JSON.

  • Trasformazione Estrai frammenti di stringa con un'espressione regolare: estrai frammenti di stringa utilizzando un'espressione regolare e crea a partire da essa una nuova colonna o anche più colonne, se si utilizzano gruppi di espressioni regolari.

  • Custom transform: inserisce il codice in un campo di inserimento testo per utilizzare le trasformazioni personalizzate. L'output è una raccolta di DynamicFrames.