Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caratteristiche dell'editor dei processi
L'editor di processi offre le seguenti caratteristiche per la creazione e la modifica di processi.
-
Un diagramma visivo del processo, con un nodo per ogni attività: nodi di origine dati per la lettura dei dati; nodi di trasformazione per la modifica dei dati; nodi di destinazione dati per la scrittura dei dati.
È possibile visualizzare e configurare le proprietà di ciascun nodo nel diagramma del processo. È inoltre possibile visualizzare lo schema e i dati di esempio per ogni nodo nel diagramma del processo. Queste caratteristiche consentono di verificare che il processo stia modificando e trasformando i dati nel modo corretto, senza doverlo eseguire
-
Una scheda di visualizzazione e modifica degli script, in cui è possibile modificare il codice generato per il processo.
-
Una scheda Dettagli del lavoro, in cui è possibile configurare una serie di impostazioni per personalizzare l'ambiente in cui viene eseguito il AWS Glue ETL lavoro.
Una scheda per le esecuzioni, in cui è possibile visualizzare le esecuzioni correnti e precedenti del processo, lo stato dell'esecuzione del processo e accedere ai registri per l'esecuzione del processo.
-
Una scheda per la qualità dei dati, in cui è possibile applicare le regole sulla qualità dei dati al processo.
-
Una scheda per le pianificazioni, in cui è possibile configurare l'ora di inizio del processo o impostare le esecuzioni del processo ricorrenti.
-
Una scheda per il controllo della versione, in cui è possibile configurare un servizio Git da utilizzare con il processo.
Utilizzo delle anteprime dello schema nell'editor visivo dei processi
Durante la creazione o la modifica del processo, è possibile utilizzare la scheda Output schema (Schema di output) per visualizzare lo schema dei dati.
Prima di poter visualizzare lo schema, l'editor dei processi necessita delle autorizzazioni per accedere all'origine dati. È possibile specificare un IAM ruolo nella scheda Dettagli del lavoro dell'editor o nella scheda Schema di output per un nodo. Se il IAM ruolo dispone di tutte le autorizzazioni necessarie per accedere all'origine dati, puoi quindi visualizzare lo schema nella scheda Schema di output per un nodo.
Utilizzo delle anteprime dei dati nell'editor visivo dei processi
Le anteprime dei dati consentono di creare e testare il processo, usando un esempio dei dati, senza doverlo eseguire ripetutamente. Utilizzando l'anteprima dei dati, puoi:
-
Verifica un IAM ruolo per assicurarti di avere accesso alle tue fonti di dati o alle tue destinazioni di dati.
-
Controlla che la trasformazione stia modificando i dati nel modo previsto. Ad esempio, se utilizzi un filtro di trasformazione, puoi accertarti che il filtro stia selezionando il sottoinsieme di dati corretto.
-
Controlla i dati. Se il set di dati contiene colonne con valori di più tipi, nell'anteprima dei dati viene visualizzato un elenco di tuple per tali colonne. Ogni tupla contiene il tipo di dato e il suo valore.
Nota
Se utilizzi una sessione di anteprima dei dati e un nodo di codice personalizzato SQL o personalizzato, la sessione di anteprima dei dati eseguirà il blocco di codice SQL o così com'è per l'intero set di dati.
Durante la creazione o la modifica del processo, è possibile utilizzare la scheda Anteprima dei dati sotto il canvas del processo per visualizzare un campione dei dati. Una nuova sessione di anteprima dei dati verrà avviata automaticamente quando il ruolo è già configurato sul lavoro o è stato impostato un IAM ruolo predefinito nell'account. Se un ruolo non è stato configurato in precedenza, puoi avviare una sessione selezionando il ruolo.
Nota
Il ruolo scelto per la sessione di anteprima dei dati verrà utilizzato anche per il processo.
Puoi vedere lo stato e l'avanzamento della sessione, nonché i dettagli della sessione, facendo clic sull'icona delle informazioni.
Quando la sessione è pronta, AWS Glue Studio caricherà i dati per il nodo selezionato. È possibile visualizzare la percentuale di completamento man mano che procede.
Durante la creazione del processo visivo, AWS Glue Studio aggiornerà automaticamente lo schema per il nodo selezionato quando si attiva Deduci schema dalla sessione nella scheda Schema di output.
Per configurare le preferenze di anteprima dei dati:
Scegliere l'icona delle impostazioni (simbolo dell'ingranaggio) per configurare le preferenze per le anteprime dei dati. Queste impostazioni si applicano a tutti i nodi del diagramma del processo. È possibile:
-
Scegliere di avvolgere il testo da una riga all'altra. Per impostazione predefinita, questa opzione è abilitata.
-
Modifica il numero di righe (il valore predefinito è 200)
-
Scegli un IAM ruolo o crea un IAM ruolo se necessario
-
Scegli di avviare automaticamente una nuova sessione quando si crea un processo. Questo fornisce una nuova sessione interattiva durante la creazione dei processi. Questa impostazione si applica a livello di account. Una volta configurata, verrà applicata a tutti gli utenti dell'account durante la modifica di qualsiasi processo.
-
Scegliere di dedurre automaticamente lo schema. Gli schemi di output verranno dedotti automaticamente per il nodo selezionato
-
Scegli di importare automaticamente le librerie AWS Glue. Questo è utile perché impedirà che l'anteprima dei dati riavvii nuove sessioni quando si aggiungono nuove trasformazioni che richiedono il riavvio della sessione
Le funzionalità aggiuntive includono la possibilità di:
-
Seleziona Previewing x of y fields (Anteprima dei campi x di y) per selezionare le colonne (campi) da visualizzare in anteprima. Quando si visualizzano in anteprima i dati utilizzando le impostazioni di default, l'editor dei processi mostra le prime 5 colonne del set di dati. È possibile modificare questa impostazione per mostrare tutte o nessuna (non consigliato).
-
Scorri la finestra di anteprima dei dati sia orizzontalmente che verticalmente.
-
Per visualizzare meglio i dati e le strutture dei dati, utilizzare il pulsante di ingrandimento per espandere la scheda Anteprima dati e sovrapporre il grafico del processo. Allo stesso modo, utilizzare il pulsante di riduzione al minimo per ridurre al minimo la scheda Anteprima dei dati. È possibile anche selezionare la maniglia del riquadro e trascinarla verso l'alto per espandere la scheda Anteprima dei dati.
-
Usa Termina sessione per interrompere l'anteprima dei dati. Quando si interrompe la sessione, è possibile scegliere un nuovo IAM ruolo e impostare impostazioni aggiuntive (ad esempio attivare o disattivare le impostazioni per avviare automaticamente una nuova sessione), dedurre uno schema o importare AWS Glue librerie e riavviare la sessione.
Restrizioni nell'utilizzo delle anteprime dei dati
Quando utilizzi le anteprime dati, potresti riscontrare le seguenti restrizioni o limitazioni.
-
La prima volta che scegli la scheda Anteprima dati, devi scegliere il IAM ruolo. Questo ruolo deve disporre delle autorizzazioni necessarie per accedere ai dati e alle altre risorse necessarie per creare le anteprime dei dati.
-
Dopo aver fornito un IAM ruolo, è necessario un po' di tempo prima che i dati siano disponibili per la visualizzazione. Per i set di dati con meno di 1 GB di dati, può essere necessario fino a un minuto. Se disponi di un set di dati di grandi dimensioni, utilizza le partizioni per ridurre il tempo di caricamento. Il caricamento dei dati direttamente da Amazon S3 offre le prestazioni migliori.
-
Se disponi di un set di dati molto grande e sono necessari più di 15 minuti per eseguire query sui dati per l'anteprima, la richiesta scadrà. Le anteprime dei dati hanno un IDLE timeout di 30 minuti. Per ovviare a questo problema, riduci le dimensioni del set di dati per utilizzare le anteprime dei dati.
-
Per impostazione predefinita, vengono visualizzate le prime 50 colonne nella scheda Anteprima dei dati. Se le colonne non contengono valori di dati, verrà visualizzato un messaggio che indica che non sono presenti dati da visualizzare. Puoi aumentare il numero di righe campionate o di colonne selezionate per visualizzare i valori dei dati.
-
Le anteprime dei dati non sono attualmente supportate per le origini dati in streaming o per le origini dati che utilizzano connettori personalizzati.
-
Gli errori su un nodo influiscono sull'intero processo. Se un nodo presenta un errore con le anteprime dei dati, l'errore verrà visualizzato su tutti i nodi finché non lo si corregge.
-
Se si modifica un'origine dati per il processo, potrebbe essere necessario aggiornare i nodi figlio dell'origine dati in modo che corrispondano al nuovo schema. Ad esempio, se hai un ApplyMapping nodo che modifica una colonna e la colonna non esiste nell'origine dati sostitutiva, dovrai aggiornare il ApplyMapping nodo di trasformazione.
-
Se si visualizza la scheda Anteprima dati per un nodo di trasformazione di SQL query e la SQL query utilizza un nome di campo errato, la scheda Anteprima dati mostra un errore.
Generazione di codice dello script
Quando utilizzi l'editor visivo per creare un lavoro, il ETL codice viene generato automaticamente. AWS Glue Studiocrea uno script di lavoro funzionale e completo e lo salva in una posizione Amazon S3.
Esistono due forme di codice generate da AWS Glue Studio: la versione originale o classica e una versione più recente e semplificata. Per impostazione predefinita, il nuovo generatore di codice viene utilizzato per creare lo script del processo. È possibile generare uno script di processo utilizzando il generatore di codice classico sulla scheda Script scegliendo il pulsante di attivazione Generate classic script (Genera script classico).
Alcune delle differenze nella nuova versione del codice generato includono:
-
I blocchi di commenti di grandi dimensioni non vengono più aggiunti allo script
-
Le strutture di output nel codice utilizzano il nome del nodo specificato nell'editor visivo. Nello script di classe, le strutture di output sono semplicemente denominate
DataSource0
,DataSource1
,Transform0
,Transform1
,DataSink0
,DataSink1
e così via. -
I comandi lunghi sono divisi su più righe per eliminare la necessità di scorrere la pagina per visualizzare l'intero comando.
Le nuove caratteristiche di AWS Glue Studio richiedono la nuova versione di generazione del codice e non funziona con il classico script di codice. Quando si tenta di eseguire questi processi, viene richiesto di aggiornarli.