Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
In questo tutorial, inizierai con AWS Glue Qualità dei dati in AWS Glue Studio. Imparerai a:
-
Crea regole utilizzando il generatore di regole Data Quality Definition Language (DQDL).
-
Specificare le azioni di qualità dei dati, i dati da emettere e la posizione di output dei risultati della qualità dei dati.
-
Esaminare i risultati della qualità dei dati.
Per fare pratica con un esempio, consulta il post sul blog Getting started with AWS Glue Data Quality for ETL pipelines.
Passaggio 1: aggiunta del nodo Valuta la qualità dei dati al processo visivo
In questo passaggio, verrà aggiunto il nodo di valutazione della qualità dei dati all'editor del processo visivo.
Aggiunta del nodo di qualità dei dati
-
Nella console AWS Glue Studio, scegli Visual con origine e destinazione dalla sezione Crea lavoro, quindi scegli Crea.
-
Scegli un nodo al quale desideri applicare la trasformazione della qualità dei dati. In genere, si tratta di un nodo di trasformazione o di un'origine dati.
-
Apri il pannello delle risorse a sinistra scegliendo l'icona "+". È inoltre possibile digitare Valuta la qualità dei dati nella barra di ricerca e quindi scegliere Valuta la qualità dei dati dai risultati della ricerca.
-
L'editor del processo visivo mostrerà il nodo di trasformazione Valuta la qualità dei dati che si dirama dal nodo selezionato. Sul lato destro della console, la scheda Transform (Trasforma) è aperta automaticamente. Se devi modificare il nodo padre, scegli la scheda Proprietà del nodo, quindi scegli il nodo padre dal menu a discesa.
Quando si sceglie un nuovo nodo principale, viene stabilita una nuova connessione tra il nodo principale e il nodo Evaluate Data Quality (Valuta la qualità dei dati). Rimuovi tutti i nodi principali indesiderati. È possibile collegare un solo nodo principale a un nodo Evaluate Data Quality (Valuta la qualità dei dati).
-
La trasformazione Valuta la qualità dei dati supporta più padri per consentire di convalidare le regole di qualità dei dati su più set di dati. Le regole che supportano più set di dati includono ReferentialIntegrity DatasetMatch,, SchemaMatch RowCountMatch, e AggregateMatch.
Se aggiungi più input alla trasformazione Valuta la qualità dei dati, devi selezionare l'input "primario". L'input primario è il set di dati del quale desideri convalidare la qualità dei dati. Tutti gli altri nodi o input vengono trattati come riferimenti.
È possibile utilizzare la trasformazione Valuta la qualità dei dati per identificare record specifici che non hanno superato i controlli di qualità dei dati. Ti consigliamo di scegliere il set di dati primario perché le nuove colonne che segnalano i record non validi vengono aggiunte a tale set di dati.
-
È possibile specificare degli alias per le origini dati di input. Gli alias forniscono un altro modo per fare riferimento alla sorgente di input quando si utilizza la ReferentialIntegrity regola. Poiché è possibile designare una sola origine dati come origine principale, ogni ulteriore origine dati che aggiungi richiederà un alias.
Nell'esempio seguente, la ReferentialIntegrity regola specifica l'origine dati di input tramite il nome dell'alias ed esegue un one-to-one confronto con l'origine dati principale.
Rules = [ ReferentialIntegrity “Aliasname.name” = 1 ]
Passaggio 2: creare una regola utilizzando DQDL
In questo passaggio, crei una regola utilizzandoDQDL. Per questo tutorial, verrà creata una singola regola utilizzando il tipo di regola Completezza. Questo tipo di regola verifica la percentuale di valori completi (non nulli) in una colonna rispetto a una determinata espressione. Per ulteriori informazioni sull'utilizzo di DQDL, consultare DQDL.
-
Nella scheda Trasforma, aggiungi un Tipo di regola facendo clic sul pulsante Inserisci. Questa operazione aggiunge il tipo di regola all'editor di regole, nel quale è possibile inserire i parametri per la regola.
Nota
Quando modifichi le regole, assicurati che le regole siano racchiuse tra parentesi e che siano separate da virgole. Ad esempio, un'espressione di regola completa avrà il seguente aspetto:
Rules= [ Completeness "year">0.8, Completeness "month">0.8 ]
Questo esempio specifica il parametro di completezza per le colonne denominate "anno" e "mese". Affinché la regola venga soddisfatta, queste colonne devono essere complete per più dell'80% o devono contenere dati in oltre l'80% delle istanze per ogni rispettiva colonna.
In questo esempio, cerca e inserisci il tipo di regola Completezza. Questa operazione aggiunge il tipo di regola all'editor di regole. Questo tipo di regola ha la seguente sintassi:
Completeness <COL_NAME> <EXPRESSION>
.La maggior parte dei tipi di regole richiede la specifica di un'espressione come parametro al fine di creare una risposta booleana. Per ulteriori informazioni sulle DQDL espressioni supportate, vedere DQDLespressioni. Successivamente, aggiungerai il nome della colonna.
-
Nel generatore di DQDL regole, scegli la scheda Schema. Usa la barra di ricerca per individuare il nome della colonna nello schema di input. Lo schema di input visualizza il nome della colonna e il tipo di dati.
-
Nell'editor di regole, fai clic sulla destra del tipo di regola per inserire il cursore nel punto in cui verrà inserita la colonna. In alternativa, è possibile digitare il nome della colonna nella regola.
Ad esempio, dall'elenco di colonne nell'elenco dello schema di input, fai clic sul pulsante Inserisci accanto alla colonna (in questo esempio, anno). Questa operazione aggiunge la colonna alla regola.
-
Quindi, nell'editor di regole, aggiungi un'espressione per valutare la regola. Poiché il tipo Completezza verifica la percentuale di valori completi (non nulli) in una colonna rispetto a una determinata espressione, immetti un'espressione come
> 0.8
. Questa regola controlla se la colonna contiene almeno l'80% di valori completi (non nulli).
Passaggio 3: configurazione degli output di qualità dei dati
Dopo aver creato le regole di qualità dei dati, è possibile selezionare opzioni aggiuntive per specificare l'output del nodo della qualità dei dati.
-
In Data quality transform output (Output della trasformazione della qualità dei dati), scegli tra le seguenti opzioni:
-
Dati originali: scegli di emettere i dati di input originali. Quando scegli questa opzione, al job viene aggiunto un nuovo nodo figlio «rowLevelOutcomes». Lo schema corrisponde allo schema del set di dati primario trasmesso come input alla trasformazione. Questa opzione è utile se si desidera soltanto trasmettere i dati e far sì che il processo abbia esito negativo se si verificano problemi di qualità.
Un altro caso d'uso è quando si desidera rilevare record non validi che non hanno superato i controlli di qualità dei dati. Per rilevare i record non validi, scegli l'opzione Aggiungi nuove colonne per indicare gli errori di qualità dei dati. Questa azione aggiunge quattro nuove colonne allo schema della trasformazione «rowLevelOutcomes».
-
DataQualityRulesPass(array di stringhe): fornisce una serie di regole che hanno superato i controlli di qualità dei dati.
-
DataQualityRulesFail(array di stringhe) — Fornisce una serie di regole che non hanno superato i controlli di qualità dei dati.
-
DataQualityRulesSkip(array di stringhe) — Fornisce una serie di regole che sono state ignorate. Le seguenti regole non possono identificare i record di errore perché vengono applicate a livello di set di dati.
-
AggregateMatch
-
ColumnCount
-
ColumnExists
-
ColumnNamesMatchPattern
-
CustomSql
-
RowCount
-
RowCountMatch
-
StandardDeviation
-
Media
-
ColumnCorrelation
-
-
DataQualityEvaluationResult— Fornisce lo stato «Passato» o «Non riuscito» a livello di riga. Tieni presente che i risultati complessivi possono essereFAIL, ma è possibile che venga superato un determinato record. Ad esempio, la RowCount regola potrebbe non essere riuscita, ma tutte le altre regole potrebbero aver avuto successo. In questi casi, lo stato di questo campo è "Riuscito".
-
-
-
Risultati della qualità dei dati: scegli di visualizzare le regole configurate e il loro stato di riuscita o non riuscita. Questa opzione è utile se desideri scrivere i risultati su Amazon S3 o altri database.
-
Impostazioni di output della qualità dei dati (facoltativo): scegli Impostazioni di output della qualità dei dati per visualizzare il campo Posizione dei risultati della qualità dei dati. Quindi, fai clic su Sfoglia per cercare una posizione Amazon S3 da impostare come destinazione dell'output della qualità dei dati.
Fase 4. Configurazione delle operazioni di qualità dei dati
Puoi utilizzare le azioni per pubblicare metriche CloudWatch o interrompere i lavori in base a criteri specifici. Le operazioni sono disponibili solo dopo aver creato una regola. Se scegli questa opzione, gli stessi parametri vengono pubblicati anche su Amazon EventBridge. È possibile utilizzare queste opzioni per creare avvisi di notifica.
-
In caso di errore del set di regole: è possibile scegliere cosa fare se un set di regole ha esito negativo mentre il processo è in esecuzione. Se desideri che il processo abbia esito negativo se la qualità dei dati non va a buon fine, puoi scegliere quando far fallire il processo selezionando una delle seguenti opzioni. Per impostazione predefinita, questa operazione non è selezionata e l'esecuzione del processo sarà completata anche se le regole di qualità dei dati hanno esito negativo.
-
Nessuno: se scegli Nessuno (impostazione predefinita), il processo non ha esito negativo e continua a essere eseguito nonostante gli errori del set di regole.
-
Abbandona il processo dopo il caricamento dei dati sulla destinazione: il processo ha esito negativo e non viene salvato alcun dato. Per salvare i risultati, scegli una posizione Amazon S3 in cui salvare i risultati sulla qualità dei dati.
-
Abbandona il processo senza caricare i dati sulla destinazione: questa opzione determina immediatamente l'esito negativo del processo quando si verifica un errore di qualità dei dati. Non carica alcuna destinazione dati, inclusi i risultati della trasformazione di qualità dei dati.
-
Passaggio 5: visualizzazione dei risultati della qualità dei dati
Dopo aver eseguito il processo, visualizza i risultati relativi alla qualità dei dati facendo clic sulla scheda Qualità dei dati.
-
Per ogni esecuzione di processo, visualizza i risultati della qualità dei dati. Ogni nodo mostra lo stato della qualità dei dati e i dettagli dello stato. Scegli un nodo per visualizzare tutte le regole e lo stato di ciascuna regola.
-
Scegli Scarica risultati per scaricare un CSV file che contiene informazioni sull'esecuzione del processo e sui risultati della qualità dei dati.
-
Se hai più di una esecuzione di processo con risultati di qualità dei dati, puoi filtrare i risultati per intervallo di data e ora. Scegli Filtra per intervallo di data e ora per espandere la finestra del filtro.
-
Puoi scegliere un intervallo relativo o un intervallo assoluto. Per gli intervalli assoluti, utilizza il calendario per selezionare i valori di data e ora per l'ora di inizio e l'ora di fine. Al termine, scegliere Applica.
Qualità automatica dei dati
Quando crei un ETL lavoro AWS Glue con Amazon S3 come destinazione, AWS Glue abilita ETL automaticamente una regola di Data Quality che verifica se i dati caricati hanno almeno una colonna. Questa regola è progettata per garantire che i dati caricati non siano vuoti o danneggiati. Tuttavia, se questa regola fallisce, il lavoro non fallirà; noterai invece una riduzione del punteggio di qualità dei dati. Inoltre, per impostazione predefinita, è abilitato il rilevamento delle anomalie, che monitora il numero di colonne nei dati. In caso di variazioni o anomalie nel conteggio delle colonne, AWS Glue ti ETL informerà di tali anomalie. Questa funzionalità ti aiuta a identificare potenziali problemi con i dati e ad adottare le azioni appropriate. Per visualizzare la regola Data Quality e la relativa configurazione, puoi fare clic sulla destinazione Amazon S3 nel tuo job AWS ETL Glue. Verrà visualizzata la configurazione della regola, come mostrato nella schermata fornita.
È possibile aggiungere ulteriori regole sulla qualità dei dati selezionando Modifica configurazione della qualità dei dati.