Nozioni di base su AWS Glue Data Quality per Data Catalog - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Nozioni di base su AWS Glue Data Quality per Data Catalog

Questa sezione introduttiva fornisce istruzioni per aiutarti a iniziare a utilizzare AWS Glue Data Quality sulla console AWS Glue. Imparerai come completare attività essenziali come la generazione di raccomandazioni di regole di qualità dei dati e la valutazione di un set di regole rispetto ai propri dati.

Prerequisiti

Prima di utilizzare AWS Glue Data Quality, è necessario conoscere l'utilizzo di Data Catalog e dei crawler in AWS Glue. Con AWS Glue Data Quality, è possibile valutare la qualità delle tabelle in un database Data Catalog. Devi disporre anche dei seguenti elementi:

  • Una tabella nel Data Catalog rispetto alla quale valutare il set di regole di qualità dei dati.

  • Un ruolo IAM per AWS Glue fornito quando si generano i suggerimenti di regole o se si esegue un'attività di qualità dei dati. Questo ruolo deve disporre dell'autorizzazione per l'accesso alle risorse che vari processi AWS Glue Data Quality richiedono per l'esecuzione per tuo conto. Queste risorse includono AWS Glue Amazon S3 e. CloudWatch Per visualizzare policy di esempio che includono le autorizzazioni minime per AWS Glue Data Quality, consulta la pagina Politiche di esempio IAM.

    Per ulteriori informazioni sui ruoli IAM per AWS Glue, consulta le pagine Create an IAM policy for the AWS Glue service e Create an IAM role for the AWS Glue service. È inoltre possibile consultare un elenco di tutte le autorizzazioni AWS Glue specifiche per la qualità dei dati nella pagina Authorization for AWS Glue Data Quality actions.

  • Un database con almeno una tabella che contiene una varietà di dati. La tabella utilizzata in questo tutorial è denominata yyz-tickets, con la tabella tickets. Questi dati sono una raccolta di informazioni disponibili al pubblico dalla città di Toronto per le violazioni in materia di sosta. Se crei la tua tabella, assicurati che sia compilata con una serie di dati validi per ottenere il miglior set di regole suggerite.

Un tep-by-step esempio

Per un step-by-step esempio con set di dati di esempio, consulta il post sul blog AWS Glue Data Quality.

Generazione di raccomandazioni di regole

I suggerimenti di regole consentono di iniziare a utilizzare facilmente la qualità dei dati senza scrivere codice. Con Qualità dei dati di AWS Glue è possibile analizzare i dati, identificare le regole e creare un set di regole che possono essere valutate in un'attività di qualità dei dati. Le esecuzioni di consigli vengono eliminate automaticamente dopo 90 giorni.

Generazione di raccomandazioni di regole di qualità dei dati
  1. Apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/.

  2. Nel pannello di navigazione, seleziona Tables (Tabelle). Scegliere quindi la tabella per la quale si desidera generare le raccomandazioni di regole di qualità dei dati.

  3. Nella pagina dei dettagli della tabella, scegli la scheda Qualità dei dati per accedere alle regole e alle impostazioni di Qualità dei dati di AWS Glue per la tabella.

  4. Nella scheda Qualità dei dati, scegli Aggiungi regole e monitora la qualità dei dati.

  5. Nella pagina Generatore set di regole, un avviso nella parte superiore della pagina ti chiederà di avviare un'attività di suggerimento se non sono presenti esecuzioni di suggerimenti di regole.

  6. Scegli Regole suggerite per aprire il modale e inserisci i parametri per l'attività di suggerimento.

  7. Scegli un ruolo IAM con accesso ad AWS Glue. Questo ruolo deve disporre dell'autorizzazione per l'accesso alle risorse che vari processi AWS Glue Data Quality richiedono per l'esecuzione a tuo nome.

  8. Dopo aver completato i campi in base alle tue preferenze, scegli Suggerisci regole per avviare l'esecuzione dell'attività di suggerimento. Se le esecuzioni di suggerimento sono in corso o completate, puoi gestirle in questo avviso. Potrebbe essere necessario aggiornare l'avviso per visualizzare la modifica dello stato. Le esecuzioni delle attività di suggerimento completate e in corso vengono visualizzate nella pagina Cronologia delle esecuzioni, che elenca tutte le esecuzioni di suggerimento effettuate negli ultimi 90 giorni.

Cosa significano le regole suggerite

Qualità dei dati di AWS Glue genera regole basate sui dati di ogni colonna della tabella di input. Utilizza le regole per identificare i potenziali limiti entro i quali i dati possono essere filtrati per mantenere i requisiti di qualità. Il seguente elenco di regole generate include esempi utili per comprendere il significato delle regole e gli effetti che potrebbero avere se applicate ai dati.

Per un elenco completo dei tipi di regole Data Quality Definition Language (DQDL) generati, consulta la pagina DQDL rule type reference.

  • IsComplete "SET_FINE_AMOUNT": la regola IsComplete verifica che la colonna sia compilata in ogni riga specificata. Utilizza questa regola per contrassegnare le colonne come non facoltative nei dati.

  • Uniqueness "TICKET_NUMBER" > 0.95: la regola Uniqueness verifica che i dati all'interno della colonna soddisfino una certa soglia di unicità. In questo esempio, è stato determinato che i dati che compongono una determinata riga per "TICKET_NUMBER" sono identici al massimo al 95% nel contenuto a tutte le altre righe, il che suggerisce questa regola.

  • ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY",...]: la regola ColumnValues definisce valori validi per la colonna in base al contenuto della colonna esistente. In questo esempio, i dati per ogni riga sono una targa di 2 lettere per uno stato o una provincia.

  • ColumnLength "INFRACTION_DESCRIPTION" between 15 and 31: la regola ColumnLength impone una limitazione di lunghezza sui dati di una colonna. Questa regola viene generata dai dati di esempio in base alle lunghezze minime e massime registrate per una colonna di stringhe.

Monitoraggio dei suggerimenti di regole

Quando sono in esecuzione i suggerimenti sulle regole di qualità dei dati, la pagina Aggiungi regole e monitora la qualità dei dati visualizza informazioni e operazioni aggiuntive che è possibile intraprendere nella barra superiore.

Quando sono in corso le esecuzioni dei suggerimenti sulle regole, puoi scegliere Interrompi esecuzione prima del completamento dell'attività di suggerimento. Mentre l'attività è in corso, vedrai lo stato In corso e la data e l'ora di inizio dell'esecuzione.

Una volta completati i suggerimenti di regole, la barra di suggerimento mostra il numero di regole suggerite, lo stato dell'ultima esecuzione di suggerimento e la data e l'ora del termine.

È possibile aggiungere le regole suggerite scegliendo Inserisci suggerimento di regola. Per visualizzare le regole precedentemente suggerite, seleziona una data specifica. Per eseguire un nuovo suggerimento, scegli Altre operazioni, quindi scegli Regole suggerite.

Configura le impostazioni predefinite scegliendo Gestisci impostazioni utente. È possibile impostare il percorso predefinito in cui Amazon S3 può archiviare i set di regole o configurare un ruolo predefinito per eseguire Catalogo dati.

Modifica dei set di regole suggeriti

Poiché Qualità dei dati di AWS Glue genera regole basate sui dati esistenti che hai a disposizione, potresti vedere alcune regole impreviste o indesiderate nei suggerimenti automatici. Per ottenere il massimo dai set di regole suggeriti, è necessario valutarli e modificarli. In questo passaggio del tutorial, prendi le regole generate nel passaggio precedente e le modifichi per applicare qualità più restrittive su alcuni dati. Inoltre, allenterai altre regole per garantire che dati corretti e univoci possano essere aggiunti in un secondo momento.

Modifica un set di regole suggerito
  1. Nella console AWS Glue, scegli Catalogo dati, quindi scegli Tabelle database nel riquadro di navigazione. Seleziona la tabella tickets.

  2. Nella pagina dei dettagli della tabella, scegli la scheda Qualità dei dati per accedere alle opzioni Qualità dei dati di AWS Glue per la tabella.

  3. Nella sezione Set di regole, seleziona il set di regole generato in Generazione di raccomandazioni di regole.

  4. Scegli Operazioni, quindi scegli Modifica nella finestra della console. L'editor del set di regole viene caricato nella console. Include un riquadro di modifica delle regole e un riferimento rapido per DQDL.

  5. Rimuovi la riga 2 dello script. Ciò allenta il requisito che prevede che la dimensione del database sia limitata entro un certo numero di righe. Dopo la modifica, il file dovrebbe contenere quanto segue nelle righe 1-3:

    Rules = [ IsComplete "TAG_NUMBER_MASKED", ColumnLength "TAG_NUMBER_MASKED" between 6 and 9,
  6. Rimuovi la riga 25 dello script. Ciò allenta il requisito che prevede che il 96% delle province registrate sia ON. Dopo la modifica, il file dovrebbe contenere quanto segue dalla riga 24 alla fine del set di regole:

    ColumnValues "PROVINCE" in ["ON", "QC", "AB", "NY", "AZ", "NS", "BC", "MI", "PQ", "MB", "PA", "FL", "SK", "NJ", "OH", "NB", "IL", "MA", "CA", "VA", "TX", "NF", "MD", "PE", "CT", "NC", "GA", "IN", "OR", "MN", "TN", "WI", "KY", "MO", "WA", "NH", "SC", "CO", "OK", "VT", "RI", "ME", "AL", "YT", "IA", "DE", "AR", "LA", "XX", "WV", "MT", "KS", "NT", "DC", "NV", "NE", "UT", "MS", "NM", "ID", "SD", "ND", "AK", "NU", "GO", "WY", "HI"], ColumnLength "PROVINCE" = 2 ]
  7. Modifica la riga 14 come segue:

    IsComplete "TIME_OF_INFRACTION",

    Ciò rafforza il requisito relativo alla colonna limitando il database ai soli ticket che contengono un orario di infrazione registrato. Nel contesto di questo set di dati, è importante considerare i ticket senza un orario di infrazione registrato come dati non validi. In alcune situazioni, potrebbe essere più appropriato considerare il partizionamento o la trasformazione dei dati al fine di consentire un ulteriore utilizzo o ispezione dei dati per determinare una regola di qualità.

  8. Scegli Aggiorna set di regole nella parte inferiore della pagina della console.

Creazione di un nuovo set di regole

Un set di regole è un gruppo di regole di qualità dei dati che vengono valutate in base ai tuoi dati. Nella console AWS Glue, puoi creare set di regole personalizzati utilizzando Data Quality Definition Language (DQDL).

Creazione di un set di regole di qualità dei dati
  1. Nella console AWS Glue, scegli Catalogo dati, scegli Database, quindi scegli Tabelle nel riquadro di navigazione. Seleziona la tabella tickets.

  2. Apri la scheda Data quality (Qualità dei dati).

  3. Nella sezione Set di regole, scegli Crea set di regole. L'editor DQDL viene avviato nella console. Dispone di un'area di testo per la modifica diretta e di un riferimento rapido alle regole DQDL e allo schema delle tabelle.

  4. Inizia ad aggiungere regole all'area di testo dell'editor DQDL. Puoi scrivere le regole direttamente da questo tutorial o utilizzare la funzionalità Generatore di regole DQDL dell'editor delle regole sulla qualità dei dati.

    Nota
    Come utilizzare il generatore di regole DQDL
    1. Seleziona un tipo di regola dall'elenco e scegli il segno più per inserire la sintassi di esempio nel riquadro dell'editor.

    2. Cambia i nomi delle colonne segnaposto con i nomi delle tue colonne. I nomi delle colonne della tabella sono disponibili nella scheda Schema.

    3. Aggiorna il parametro dell'espressione per adattarlo al tuo caso. Per un elenco completo delle espressioni supportate da DQDL, consulta Espressioni.

    Ad esempio, le seguenti regole sono vincoli per la convalida dei dati della colonna ticket_number nella tabella tickets. Per aggiungere le seguenti regole, utilizza il generatore di regole DQDL o modifica direttamente il tuo set di regole:

    IsComplete "ticket_number", IsUnique "ticket_number", ColumnValues "ticket_number" > 9000000000
  5. Fornisci un nome per il tuo nuovo set di regole nel campo Nome del set di regole.

  6. Scegli Salva set di regole.

Valutazione della qualità dei dati su più set di dati

Puoi impostare regole di qualità dei dati su più set di dati utilizzando i set di regole ReferentialIntegrity e DatasetMatch . ReferentialIntegrityverifica se i dati del set di dati primario sono presenti in altri set di dati.

Per aggiungere un set di dati di riferimento, scegli la scheda Schema, quindi scegli Aggiorna tabelle di riferimento. Ti verrà richiesto di selezionare un database e una tabella. È possibile aggiungere la tabella e quindi impostare le regole di qualità dei dati. Tipi di regole come AggregateMatch,, RowCountMatch ReferentialIntegrity SchemaMatch, e DatasetMatch supportano la possibilità di eseguire controlli di qualità dei dati su più set di dati.

Esecuzione di un set di regole per valutare la qualità dei dati

Quando si esegue un'attività di qualità dei dati, AWS Glue Data Quality valuta un set di regole rispetto ai dati e calcola un punteggio di qualità dei dati. Questo punteggio rappresenta la percentuale di regole di qualità dei dati soddisfatte per l'input.

Esecuzione di un'attività di qualità dei dati
  1. Nella console AWS Glue, scegli Catalogo dati, scegli Database, quindi scegli Tabelle nel riquadro di navigazione. Seleziona la tabella tickets.

  2. Scegli la scheda Qualità dei dati.

  3. Nell'elenco Set di regole, scegli il set di regole rispetto al quale desideri valutare la tabella. Per questo passaggio, ti consigliamo di utilizzare un set di regole che hai già scritto o modificato anziché regole generate. Scegli Esegui.

  4. Nel modale, scegli il tuo ruolo IAM. Questo ruolo deve disporre dell'autorizzazione per l'accesso alle risorse che vari processi AWS Glue Data Quality richiedono per l'esecuzione a tuo nome. È possibile salvare il ruolo IAM come predefinito o modificarlo accedendo alla pagina Impostazioni predefinite.

  5. In Azioni sulla qualità dei dati, scegli se pubblicare le metriche su Amazon CloudWatch. Se si seleziona questa opzione, Qualità dei dati di AWS Glue pubblica i parametri che indicano il numero di regole soddisfatte e il numero di regole non soddisfatte. Per intervenire sulle metriche archiviate in questo modo, puoi utilizzare CloudWatch gli allarmi. Su Amazon EventBridge vengono inoltre pubblicati i parametri chiave per consentirti di impostare gli avvisi. Per ulteriori informazioni, consulta la pagina Setting up alerts, deployments, and scheduling.

  6. In Frequenza di esecuzione, scegli l'esecuzione on demand oppure pianifica il set di regole. Quando pianifichi un set di regole, ti viene richiesto un nome per l'attività. La pianificazione verrà creata in Amazon EventBridge. Puoi modificare la tua pianificazione in Amazon EventBridge.

  7. Per salvare i risultati della qualità dei dati in Amazon S3, scegli una Posizione per i risultati della qualità dei dati. Il ruolo IAM selezionato in precedenza per questa attività deve avere accesso di scrittura a questa posizione.

  8. In Configurazioni aggiuntive, inserisci il Numero di worker richiesto che desideri che AWS Glue allochi per la tua attività di qualità dei dati.

  9. Facoltativamente, puoi impostare un filtro nell'origine dati. Questo contribuisce a ridurre i dati in fase di lettura. È inoltre possibile utilizzare un filtro per eseguire convalide incrementali selezionando le informazioni sulle partizioni e trasmettendole come parametri tramite chiamate API. Per migliorare le prestazioni, puoi fornire un predicato di partizione.

  10. Scegli Esegui. La nuova attività dovrebbe essere riportata nell'elenco di esecuzioni delle attività relative alla qualità dei dati. Quando la colonna Stato di esecuzione dell'attività è visualizzata come Completata, è possibile visualizzare i risultati del punteggio di qualità. Potrebbe essere necessario aggiornare la finestra della console per visualizzare correttamente lo stato.

  11. Per visualizzare la colonna con i dettagli dei risultati sulla qualità dei dati, scegli l'icona "+" per espandere il set di regole. I risultati mostrano le regole che hanno superato e quelle che non hanno superato la valutazione e cosa ha causato l'errore della regola.

Visualizzazione del punteggio e dei risultati della qualità dei dati

Consultazione dell'ultima esecuzione su tutti i set di regole creati
  1. Nella console AWS Glue, scegli Tables (Tabelle) nel pannello di navigazione. Scegliere quindi la tabella per la quale si desidera eseguire un'attività di qualità dei dati.

  2. Scegli la scheda Qualità dei dati.

  3. Snapshot della qualità dei dati mostra una tendenza generale delle esecuzioni nel tempo. Per impostazione predefinita, vengono visualizzate le ultime 10 esecuzioni di tutti i set di regole. Per filtrare per set di regole, seleziona quello desiderato dall'elenco a discesa. Se ci sono meno di 10 esecuzioni, vengono visualizzate tutte le esecuzioni completate disponibili.

  4. Nella tabella Qualità dei dati, viene mostrato ogni set di regole con l'ultima esecuzione, se presente, insieme al relativo punteggio. L'espansione del set di regole mostra le regole presenti in quel set di regole insieme ai risultati delle regole per tale esecuzione.

Consultazione dell'ultima esecuzione su un particolare set di regole
  1. Nella console AWS Glue, scegli Tables (Tabelle) nel pannello di navigazione. Scegliere quindi la tabella per la quale si desidera eseguire un'attività di qualità dei dati.

  2. Scegli la scheda Qualità dei dati.

  3. Nella tabella Qualità dei dati, scegli un set di regole specifico.

  4. Nella pagina Dettagli del set di regole, scegli la scheda Cronologia di esecuzione.

    Tutte le esecuzioni di valutazione per questo particolare set di regole sono elencate nella tabella all'interno di questa scheda. È possibile visualizzare la cronologia dei punteggi e lo stato delle esecuzioni.

  5. Per visualizzare ulteriori informazioni su una determinata esecuzione, scegli ID esecuzione per accedere alla pagina Dettagli dell'esecuzione di valutazione. In questa pagina, puoi visualizzare informazioni specifiche sull'esecuzione e ulteriori dettagli sullo stato dei risultati delle singole regole.