Controlli della qualità dei dati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Controlli della qualità dei dati

La qualità dei dati è una parte integrante ma spesso trascurata del processo di pulizia dei dati. Il diagramma seguente mostra come i controlli di qualità dei dati si inseriscono nel ciclo di vita dell'automazione del data engineering e del controllo degli accessi.

Diagramma della qualità dei dati

La tabella seguente fornisce una panoramica delle diverse soluzioni di qualità dei dati in base al caso d'uso.

Caso d'uso

Soluzione

Esempio

Soluzione senza codice per aggiungere condizioni di qualità a livello di colonna o tabella

AWSGlue DataBrew

Controlla se tutti i valori delle colonne sono compresi tra 1 e 12 o se una tabella o una colonna è vuota

Codice personalizzato aggiunto a un lavoro AWS Glue o a una soluzione senza codice (in anteprima) per aggiungere condizioni di qualità a livello di colonna o tabella

AWSGlue Data Quality

Verifica se la colonna non first_name è nulla o se phone_number contiene solo numeri o un operatore «+» e/o funzioni statistiche, come la media o la somma

Controlli personalizzati

ETLa scelta, come AWSLambda, AWSGlue o Amazon EMR

Verifica se il valore della colonna A è sempre maggiore del valore corrispondente della colonna B e della colonna C o se il valore della colonna continent è sempre geograficamente corretto e deriva dalla colonna city

Soluzione sofisticata con rapporto sulle metriche, convalida dei vincoli e suggerimenti sui vincoli

Deequ

Verifica se la metrica CompletenessConstraint review_id for the Completeness of Column è uguale a 1