Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
È possibile utilizzare una SQLtrasformazione per scrivere una trasformazione personalizzata sotto forma di SQL interrogazione.
Un nodo di SQL trasformazione può avere più set di dati come input, ma produce solo un singolo set di dati come output. Contiene un campo di testo in cui inserire la query Apache Spark. SQL È possibile assegnare alias a ciascun set di dati utilizzato come input, per semplificare la query. SQL Per ulteriori informazioni sulla SQL sintassi, consulta la documentazione di Spark. SQL
Nota
Se usi una SQL trasformazione Spark con un'origine dati situata in aVPC, aggiungi un AWS Glue VPC endpoint a VPC quello che contiene l'origine dati. Per ulteriori informazioni sulla configurazione degli endpoint di sviluppo, consulta Aggiunta di un endpoint di sviluppo, Impostazione dell'ambiente per endpoint di sviluppo e Accesso all'endpoint di sviluppo nella Guida per gli sviluppatori di AWS Glue .
Per utilizzare un nodo di SQL trasformazione nel diagramma del lavoro
-
(Facoltativo) Aggiungi un nodo di trasformazione al diagramma di processo, se necessario. Scegliete SQLQuery per il tipo di nodo.
Nota
Se utilizzi una sessione di anteprima dei dati e un nodo di codice personalizzato SQL o personalizzato, la sessione di anteprima dei dati eseguirà il blocco di codice SQL o così com'è per l'intero set di dati.
-
Nella scheda Node properties (Proprietà del nodo), inserisci un nome per il nodo nel diagramma del processo. Se non è già selezionato un nodo genitore o se desideri più input per la SQL trasformazione, scegli un nodo dall'elenco Genitori dei nodi da utilizzare come fonte di input per la trasformazione. Aggiungi nodi padre aggiuntivi in base alle esigenze.
-
Seleziona la scheda Transform (Trasformazione) nel pannello dei dettagli del nodo.
-
I set di dati di origine per la SQL query sono identificati dai nomi specificati nel campo Nome per ogni nodo. Se non si desidera utilizzare questi nomi o se i nomi non sono adatti per una SQL query, è possibile associare un nome a ciascun set di dati. La console fornisce alias predefiniti, ad esempio
MyDataSource
.Ad esempio, se viene denominato un nodo padre per il nodo di SQL trasformazione
Rename Org PK field
, è possibile associare il nomeorg_table
a questo set di dati. Questo alias può quindi essere utilizzato nella SQL query al posto del nome del nodo. -
Nel campo di immissione del testo sotto l'intestazione Blocco di codice, incolla o inserisci la SQL query. Il campo di testo mostra l'evidenziazione della SQL sintassi e i suggerimenti di parole chiave.
-
Con il nodo di SQL trasformazione selezionato, scegliete la scheda Schema di output, quindi scegliete Modifica. Fornisci le colonne e i tipi di dati che descrivono i campi di output della SQL query.
Specifica lo schema utilizzando le azioni seguenti nella sezione Output schema (Schema di output) della pagina:
-
Per rinominare una colonna, posiziona il cursore nella casella di testo Key (Chiave) per la colonna (nota anche come field (campo) o property key (chiave di proprietà) e inserisci il nuovo nome.
-
Per modificare il tipo di dati per una colonna, seleziona il nuovo tipo di dati per la colonna dall'elenco a discesa.
-
Per aggiungere una nuova colonna di livello superiore allo schema, scegli l'opzione Overflow ( ), quindi scegli Add root key (Aggiungi chiave root). Vengono aggiunte nuove colonne nella parte superiore dello schema.
-
Per rimuovere una colonna dallo schema, scegli l'icona di eliminazione ( ) all'estrema destra del nome della chiave.
-
-
Una volta terminato di specificare lo schema di output, scegli Apply (Applica) per salvare le modifiche e uscire dall'editor dello schema. Se non vuoi salvare le modifiche, scegli Cancel (Annulla) per modificare l'editor dello schema.
(Facoltativo) Dopo aver configurato le proprietà del nodo e le proprietà di trasformazione, puoi visualizzare il set di dati modificato scegliendo la scheda Data preview (Anteprima dei dati) nel pannello dei dettagli del nodo. La prima volta che scegli questa scheda per qualsiasi nodo del job, ti viene richiesto di fornire un IAM ruolo per accedere ai dati. L'utilizzo di questa funzionalità comporta un costo e la fatturazione inizia non appena si assegna un IAM ruolo.