Trasforma i dati con trasformazioni AWS Glue gestite - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Trasforma i dati con trasformazioni AWS Glue gestite

AWS Glue Studio offre due tipi di trasformazioni:

  • Trasformazioni native di AWS Glue: gestite da AWS Glue e disponibili per tutti gli utenti.

  • Trasformazioni visive personalizzate: consente di caricare le proprie trasformazioni da utilizzare in AWS Glue Studio

Nodi di trasformazione dei dati gestiti da AWS Glue

AWS Glue Studio offre un set di trasformazioni predefinite che puoi usare per elaborare i dati. I dati passano da un nodo del diagramma del lavoro a un altro in una struttura di dati chiamata aDynamicFrame, che è un'estensione di Apache Spark. SQL DataFrame

Nel diagramma precompilato per un processo, tra i nodi di origine dati e di destinazione dati si trova il nodo di trasformazione Modifica schema. È·possibile configurare questo nodo di trasformazione per modificare i dati oppure utilizzare ulteriori trasformazioni.

Le seguenti trasformazioni predefinite sono disponibili con AWS Glue Studio:

  • ChangeSchema: mappa le chiavi di proprietà dei dati nell'origine dati alle chiavi di proprietà dei dati nella destinazione dei dati. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.

  • SelectFields: Scegli le chiavi di proprietà dei dati che desideri conservare.

  • DropFields: Scegli le chiavi di proprietà dei dati che desideri eliminare.

  • RenameField: Rinomina una singola chiave di proprietà dei dati.

  • Spigot: scrivi esempi dei dati in un bucket Amazon S3.

  • Join: esegui il join di due set di dati in un set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.

  • Union: combina righe provenienti da più di un'origine dati che hanno lo stesso schema.

  • SplitFields: divide le chiavi delle proprietà dei dati in dueDynamicFrames. Output è una raccolta di DynamicFrames: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti.

  • SelectFromCollection: Scegline una DynamicFrame da una raccolta diDynamicFrames. L'output è il DynamicFrame selezionato.

  • FillMissingValues: individua i record nel set di dati che contengono valori mancanti e aggiungi un nuovo campo con un valore suggerito determinato mediante imputazione

  • Filter: divide un set di dati in due, in base a una condizione di filtro.

  • DropNullFields: rimuove le colonne dal set di dati se tutti i valori nella colonna sono "null".

  • Elimina i duplicati: rimuove le righe dall'origine dati consentendo di scegliere se abbinare righe intere o specificare le chiavi.

  • SQL: Inserisci il SQL codice Spark in un campo di immissione di testo per utilizzare una SQL query per trasformare i dati. L'output è un singolo DynamicFrame.

  • Aggregate: esegue un calcolo (ad esempio media, somma, min, max) su campi e righe selezionati e crea un nuovo campo con i valori appena calcolati.

  • Flatten: estrae i campi all'interno delle strutture in campi di primo livello.

  • UUID: aggiungi una colonna con un identificatore univoco universale per ogni riga.

  • Identifier: aggiunge una colonna con un identificatore numerico per ogni riga.

  • To timestamp: converte una colonna in un tipo di timestamp.

  • Format timestamp: converte una colonna di timestamp in una stringa formattata.

  • Conditional Router transform: applica più condizioni ai dati in ingresso. Ogni riga dei dati in ingresso viene valutata in base a una condizione di filtro di gruppo ed elaborata nel gruppo corrispondente.

  • Trasformazione Concatena colonne: crea una nuova colonna di stringhe utilizzando i valori di altre colonne con un distanziatore opzionale.

  • Trasformazione Dividi stringa: suddividi una stringa in un array di token utilizzando un'espressione regolare per definire come viene eseguita la suddivisione.

  • Trasformazione Array a colonne: estrai alcuni o tutti gli elementi di una colonna di tipo array in nuove colonne.

  • Trasformazione Aggiungi timestamp corrente: contrassegna le righe con l'ora in cui i dati sono stati elaborati. Ciò è utile per scopi di controllo o per tenere traccia della latenza nella pipeline di dati.

  • Trasformazione Pivot: righe a colonne: aggrega una colonna numerica ruotando valori univoci su colonne selezionate che diventano nuove colonne. Se sono selezionate più colonne, i valori vengono concatenati per denominare le nuove colonne.

  • Trasformazione Elimina pivot: righe a colonne: converti le colonne in valori di nuove colonne generando una riga per ogni valore univoco.

  • Trasformazione Bilancia automaticamente elaborazione: ridistribuisci i dati tra i worker per migliorare le prestazioni. Ciò è utile nei casi in cui i dati non sono bilanciati o, poiché provengono dall'origine, non consentono un'elaborazione parallela sufficiente.

  • Trasformazione di colonna derivata: definisce una nuova colonna in base a una formula o SQL espressione matematica in cui è possibile utilizzare altre colonne nei dati, oltre a costanti e valori letterali.

  • Trasformazione Ricerca: aggiungi colonne da una tabella di catalogo definita quando le chiavi corrispondono alle colonne di ricerca definite nei dati.

  • Trasformazione Espandi array o mappa: estrae i valori da una struttura annidata in singole righe più facili da manipolare.

  • Trasformazione Corrispondenza dei record: richiama una trasformazione di classificazione dei dati di machine learning Corrispondenza dei record esistente.

  • Trasformazione Rimuovi righe nulle: rimuove dal set di dati le righe che hanno tutte le colonne come nulle o vuote.

  • Analizza la trasformazione delle JSON colonne: analizza una colonna di stringhe contenente JSON dati e la converte in una colonna di struttura o matrice, a seconda che si tratti rispettivamente di un oggetto o di un array. JSON

  • Estrai la trasformazione del JSON percorso: estrae nuove colonne da una colonna di JSON stringhe.

  • Trasformazione Estrai frammenti di stringa con un'espressione regolare: estrai frammenti di stringa utilizzando un'espressione regolare e crea a partire da essa una nuova colonna o anche più colonne, se si utilizzano gruppi di espressioni regolari.

  • Custom transform: inserisce il codice in un campo di inserimento testo per utilizzare le trasformazioni personalizzate. L'output è una raccolta di DynamicFrames.