AWS Glue Qualità dei dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue Qualità dei dati

AWS Glue La qualità dei dati consente di misurare e monitorare la qualità dei dati in modo da poter prendere buone decisioni aziendali. Basato su un DeeQu framework open source, AWS Glue Data Quality offre un'esperienza gestita e senza server. AWS Glue Data Quality funziona con Data Quality Definition Language (DQDL), un linguaggio specifico del dominio utilizzato per definire le regole di qualità dei dati. Per ulteriori informazioni su DQDL e sui tipi di regole supportati, consulta la pagina Riferimento a Data Quality Definition Language (DQDL).

Per informazioni aggiuntive sul prodotto e sui prezzi, consulta la pagina del servizio Qualità dei dati di AWS Glue.

Vantaggi e funzionalità principali

I vantaggi e le caratteristiche principali di AWS Glue Data Quality includono:

  • Serverless: non è necessaria alcuna installazione, applicazione di patch o manutenzione.

  • Inizia subito: AWS Glue Data Quality analizza rapidamente i tuoi dati e crea regole di qualità dei dati per te. È possibile iniziare con due clic: "Crea regole sulla qualità dei dati → Regole suggerite".

  • Rileva problemi di qualità dei dati: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità hard-to-detect dei dati.

  • Improvvisa le tue regole: con più di 25 regole out-of-the-box DQ da cui partire, puoi creare regole adatte alle tue esigenze specifiche.

  • Valuta la qualità e prendi decisioni aziendali con fiducia: una volta valutate le regole, ottieni un punteggio di qualità dei dati che fornisce una panoramica dello stato dei tuoi dati. Utilizza il punteggio di qualità dei dati per prendere decisioni aziendali con fiducia.

  • Concentrati sui dati errati: AWS Glue Data Quality ti aiuta a identificare i record esatti che hanno causato il calo dei punteggi di qualità. Identificali, mettili in quarantena e correggili facilmente.

  • Pagamento in base al consumo: non sono necessarie licenze annuali per utilizzare AWS Glue Data Quality.

  • Nessun vincolo: AWS Glue Data Quality è basato sull'open source DeeQu e ti consente di mantenere le regole che stai creando in un linguaggio aperto.

  • Controlli della qualità dei dati: puoi applicare i controlli di qualità dei dati su Data Catalog e AWS Glue Pipeline ETL che consentono di gestire la qualità dei dati a riposo e in transito.

  • Rilevamento della qualità dei dati basato su ML: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità dei dati. hard-to-detect

  • Linguaggio aperto per esprimere regole: garantisce che le regole sulla qualità dei dati siano redatte in modo coerente e semplice. Gli utenti aziendali possono esprimere facilmente le regole sulla qualità dei dati in un linguaggio semplice e comprensibile. Per gli ingegneri, questo linguaggio offre la flessibilità necessaria per generare codice, implementare un controllo coerente delle versioni e automatizzare le implementazioni.

Come funziona

Esistono due punti di accesso per AWS Glue Data Quality: the AWS Glue Data Catalog e AWS Glue ETL job. Questa sezione fornisce una panoramica dei casi d'uso e delle AWS Glue funzionalità supportate da ciascun punto di ingresso.

Qualità dei dati per AWS Glue Data Catalog

AWS Glue Data Quality valuta gli oggetti archiviati in e offre ai AWS Glue Data Catalog non programmatori un modo semplice per impostare regole di qualità dei dati. Queste figure includono amministratori di dati e analisti aziendali.

È possibile scegliere questa opzione per i seguenti casi d'uso:

  • Desideri eseguire attività relative alla qualità dei dati su set di dati che hai già catalogato in AWS Glue Data Catalog.

  • Ti occupi di governance dei dati e devi identificare o valutare i problemi di qualità dei dati nel tuo data lake su base continuativa.

È possibile gestire la qualità dei dati per Catalogo dati utilizzando le seguenti interfacce:

  • La console di gestione AWS Glue

  • AWS Glue APIs

Per iniziare a usare AWS Glue Data Quality for the AWS Glue Data Catalog seeNozioni di base su AWS Glue Data Quality per Data Catalog.

Qualità dei dati per AWS Glue lavori ETL

AWS Glue Data Quality for AWS Glue ETL Jobs consente di eseguire attività proattive sulla qualità dei dati. Le attività proattive ti aiutano a identificare e filtrare i dati errati prima di caricare un set di dati nel tuo data lake.

È possibile scegliere la qualità dei dati per i processi ETL per i seguenti casi d'uso:

  • Desideri integrare attività relative alla qualità dei dati nei tuoi processi ETL

  • Desideri scrivere codice che definisca le attività relative alla qualità dei dati negli script ETL

  • Vuoi gestire la qualità dei dati che fluiscono nelle tue pipeline di dati visive

È possibile gestire la qualità dei dati per i processi ETL utilizzando le seguenti interfacce:

  • AWS Glue Studio, AWS Glue Studio notebook e sessioni interattive AWS Glue

  • AWS Glue librerie per lo scripting ETL

  • AWS Glue APIs

Per iniziare a utilizzare la qualità dei dati per i processi ETL, consulta la pagina Tutorial: Getting started with Data Quality nella Guida per l'utente di AWS Glue Studio .

Confronto della qualità dei dati per Catalogo dati con la qualità dei dati per i processi ETL

Questa tabella fornisce una panoramica delle funzionalità supportate da ogni punto di ingresso di AWS Glue Data Quality.

Funzionalità Qualità dei dati per Catalogo dati Qualità dei dati per i processi ETL
Origine dati Amazon S3, Amazon Redshift, origini JDBC compatibili con Catalogo dati e formati di data lake transazionali come Apache Iceberg, Apache Hudi e Delta Lake. Nota che se le tabelle sono AWS Lake Formation gestite, le tabelle Iceberg, Delta e HUDI non sono supportate. Amazon Athena le viste catalogate in non AWS Glue Data Catalog sono supportate. Tutte le fonti di dati supportate da AWS Glue, inclusi connettori personalizzati e connettori di terze parti.
Suggerimenti di regole di Qualità dei dati Supportato Non supportato
Creazione ed esecuzione di regole DQDL Supportato Supportato
Dimensionamento automatico Non supportato Supportata
AWS Glue Supporto Flex Non supportato Supportata
Pianificazione Supportato durante la valutazione delle regole di Qualità dei dati e tramite Step Functions. Supportato durante l'utilizzo di Step Functions e flussi di lavoro.
Identificazione dei record che non hanno superato i controlli di qualità dei dati Non supportato Supportata
Integrazione con Amazon EventBridge Supportato Supportato
Integrazione con Cloudwatch AWS Supportato Supportato
Scrittura dei risultati di qualità dei dati in Amazon S3 Supportato Supportato
Qualità incrementale dei dati Supportato tramite predicati pushdown Supportato tramite segnalibri AWS Glue
AWS CloudFormation supporto Supportato Supportato
Rilevamento delle anomalie basato su ML Non supportato Supportata
Regole dinamiche Non supportato Supportata

Considerazioni

Prendi in considerazione i seguenti elementi prima di utilizzare AWS Glue Data Quality:

Terminologia

L'elenco seguente definisce i termini correlati alla qualità AWS Glue dei dati.

Data Quality Definition Language (DQDL)

Linguaggio specifico del dominio che è possibile utilizzare per scrivere regole di qualità AWS Glue dei dati.

Per ulteriori informazioni su DQDL, consulta la guida di Riferimento a Data Quality Definition Language (DQDL).

qualità dei dati

Descrive in che modo un set di dati soddisfa il suo scopo specifico. AWS Glue Data Quality valuta le regole rispetto a un set di dati per misurare la qualità dei dati. Ogni regola verifica caratteristiche particolari come la freschezza o l'integrità dei dati. Per quantificare la qualità dei dati, è possibile utilizzare un punteggio di qualità dei dati.

punteggio di qualità dei dati

La percentuale di regole sulla qualità dei dati che vengono rispettate (risultano vere) quando si valuta un set di regole con Data Quality. AWS Glue

regola

Un'espressione DQDL che controlla i dati per una caratteristica specifica e restituisce un valore booleano. Per ulteriori informazioni, consulta Struttura delle regole.

analyzer

Un'espressione DQDL che raccoglie statistiche sui dati. Un analizzatore raccoglie statistiche sui dati che possono essere utilizzate dagli algoritmi ML per rilevare anomalie e problemi di qualità dei dati nel tempo. hard-to-detect

set di regole

Una AWS Glue risorsa che comprende una serie di regole sulla qualità dei dati. Un set di regole deve essere associato a una tabella in AWS Glue Data Catalog. Quando salvi un set di regole, AWS Glue assegna un nome della risorsa Amazon (ARN) al set di regole.

punteggio di qualità dei dati

La percentuale di regole sulla qualità dei dati che vengono rispettate (risultano vere) quando si valuta un set di regole con AWS Glue Qualità dei dati.

osservazione

Un'intuizione non confermata generata da AWS Glue analizzando le statistiche dei dati raccolte da regole e analizzatori nel tempo.

Limiti

AWS Glue Limiti del servizio Data Quality:

  • Puoi avere 2.000 regole in un set di regole. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.

  • La dimensione del set di regole è di 65 KB. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.

  • AWS Glue Data Quality raccoglie statistiche quando crei una regola o un analizzatore. Non vi è alcun costo associato alla memorizzazione di queste statistiche. Tuttavia, esiste un limite di 100.000 statistiche per account e tali statistiche verranno conservate per un massimo di due anni.

Note di rilascio per AWS Glue la qualità dei dati

Questo argomento descrive le funzionalità introdotte in AWS Glue Data Quality.

Disponibilità generale: nuove funzionalità

Le seguenti nuove funzionalità sono disponibili con la disponibilità generale di AWS Glue Data Quality:

  • La capacità di identificare quali record non hanno superato i controlli di qualità dei dati è ora supportata in AWS Glue Studio

  • Nuovi tipi di regole sulla qualità dei dati, come la convalida dell'integrità referenziale dei dati tra due set di dati, il confronto dei dati tra due set di dati e il controllo dei tipi di dati

  • Esperienza utente migliorata in AWS Glue Data Catalog

  • Supporto per Apache Iceberg, Apache Hudi e Delta Lake

  • Supporto per Amazon Redshift

  • Notifica semplificata con Amazon EventBridge

  • AWS CloudFormation supporto per la creazione di set di regole

  • Miglioramenti delle prestazioni: opzione di memorizzazione nella cache in ETL e AWS Glue Studio per prestazioni più rapide nella valutazione della qualità dei dati

27 novembre 2023 (anteprima)

12 marzo 2024

26 giugno 2024

  • Miglioramenti DQDL

    • DQDL ora supporta la clausola where in modo da poter filtrare i dati prima di applicare le regole DQ

7 agosto 2024

  • Il rilevamento delle anomalie e le regole dinamiche sono ora disponibili a livello generale

22 novembre 2024

6 dicembre 2024

  • AWS Glue Data Quality ora supporta Amazon SageMaker AI LakeHouse tabelle e tabelle Iceberg, Delta e HUDI AWS Lake Formation gestite in Data Catalog ed ETL