Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue Qualità dei dati
AWS Glue La qualità dei dati consente di misurare e monitorare la qualità dei dati in modo da poter prendere buone decisioni aziendali. Basato su un DeeQu framework open source, AWS Glue Data Quality offre un'esperienza gestita e senza server. AWS Glue Data Quality funziona con Data Quality Definition Language (DQDL), un linguaggio specifico del dominio utilizzato per definire le regole di qualità dei dati. Per ulteriori informazioni su DQDL e sui tipi di regole supportati, consulta la pagina Riferimento a Data Quality Definition Language (DQDL).
Per informazioni aggiuntive sul prodotto e sui prezzi, consulta la pagina del servizio Qualità dei dati di AWS Glue
Vantaggi e funzionalità principali
I vantaggi e le caratteristiche principali di AWS Glue Data Quality includono:
-
Serverless: non è necessaria alcuna installazione, applicazione di patch o manutenzione.
-
Inizia subito: AWS Glue Data Quality analizza rapidamente i tuoi dati e crea regole di qualità dei dati per te. È possibile iniziare con due clic: "Crea regole sulla qualità dei dati → Regole suggerite".
-
Rileva problemi di qualità dei dati: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità hard-to-detect dei dati.
-
Improvvisa le tue regole: con più di 25 regole out-of-the-box DQ da cui partire, puoi creare regole adatte alle tue esigenze specifiche.
-
Valuta la qualità e prendi decisioni aziendali con fiducia: una volta valutate le regole, ottieni un punteggio di qualità dei dati che fornisce una panoramica dello stato dei tuoi dati. Utilizza il punteggio di qualità dei dati per prendere decisioni aziendali con fiducia.
-
Concentrati sui dati errati: AWS Glue Data Quality ti aiuta a identificare i record esatti che hanno causato il calo dei punteggi di qualità. Identificali, mettili in quarantena e correggili facilmente.
-
Pagamento in base al consumo: non sono necessarie licenze annuali per utilizzare AWS Glue Data Quality.
-
Nessun vincolo: AWS Glue Data Quality è basato sull'open source DeeQu e ti consente di mantenere le regole che stai creando in un linguaggio aperto.
-
Controlli della qualità dei dati: puoi applicare i controlli di qualità dei dati su Data Catalog e AWS Glue Pipeline ETL che consentono di gestire la qualità dei dati a riposo e in transito.
-
Rilevamento della qualità dei dati basato su ML: utilizza l'apprendimento automatico (ML) per rilevare anomalie e problemi di qualità dei dati. hard-to-detect
-
Linguaggio aperto per esprimere regole: garantisce che le regole sulla qualità dei dati siano redatte in modo coerente e semplice. Gli utenti aziendali possono esprimere facilmente le regole sulla qualità dei dati in un linguaggio semplice e comprensibile. Per gli ingegneri, questo linguaggio offre la flessibilità necessaria per generare codice, implementare un controllo coerente delle versioni e automatizzare le implementazioni.
Come funziona
Esistono due punti di accesso per AWS Glue Data Quality: the AWS Glue Data Catalog e AWS Glue ETL job. Questa sezione fornisce una panoramica dei casi d'uso e delle AWS Glue funzionalità supportate da ciascun punto di ingresso.
Qualità dei dati per AWS Glue Data Catalog
AWS Glue Data Quality valuta gli oggetti archiviati in e offre ai AWS Glue Data Catalog non programmatori un modo semplice per impostare regole di qualità dei dati. Queste figure includono amministratori di dati e analisti aziendali.
È possibile scegliere questa opzione per i seguenti casi d'uso:
-
Desideri eseguire attività relative alla qualità dei dati su set di dati che hai già catalogato in AWS Glue Data Catalog.
-
Ti occupi di governance dei dati e devi identificare o valutare i problemi di qualità dei dati nel tuo data lake su base continuativa.
È possibile gestire la qualità dei dati per Catalogo dati utilizzando le seguenti interfacce:
-
La console di gestione AWS Glue
-
AWS Glue APIs
Per iniziare a usare AWS Glue Data Quality for the AWS Glue Data Catalog seeNozioni di base su AWS Glue Data Quality per Data Catalog.
Qualità dei dati per AWS Glue lavori ETL
AWS Glue Data Quality for AWS Glue ETL Jobs consente di eseguire attività proattive sulla qualità dei dati. Le attività proattive ti aiutano a identificare e filtrare i dati errati prima di caricare un set di dati nel tuo data lake.
È possibile scegliere la qualità dei dati per i processi ETL per i seguenti casi d'uso:
-
Desideri integrare attività relative alla qualità dei dati nei tuoi processi ETL
-
Desideri scrivere codice che definisca le attività relative alla qualità dei dati negli script ETL
-
Vuoi gestire la qualità dei dati che fluiscono nelle tue pipeline di dati visive
È possibile gestire la qualità dei dati per i processi ETL utilizzando le seguenti interfacce:
-
AWS Glue Studio, AWS Glue Studio notebook e sessioni interattive AWS Glue
-
AWS Glue librerie per lo scripting ETL
-
AWS Glue APIs
Per iniziare a utilizzare la qualità dei dati per i processi ETL, consulta la pagina Tutorial: Getting started with Data Quality nella Guida per l'utente di AWS Glue Studio .
Confronto della qualità dei dati per Catalogo dati con la qualità dei dati per i processi ETL
Questa tabella fornisce una panoramica delle funzionalità supportate da ogni punto di ingresso di AWS Glue Data Quality.
Funzionalità | Qualità dei dati per Catalogo dati | Qualità dei dati per i processi ETL |
---|---|---|
Origine dati | Amazon S3, Amazon Redshift, origini JDBC compatibili con Catalogo dati e formati di data lake transazionali come Apache Iceberg, Apache Hudi e Delta Lake. Nota che se le tabelle sono AWS Lake Formation gestite, le tabelle Iceberg, Delta e HUDI non sono supportate. Amazon Athena le viste catalogate in non AWS Glue Data Catalog sono supportate. | Tutte le fonti di dati supportate da AWS Glue, inclusi connettori personalizzati e connettori di terze parti. |
Suggerimenti di regole di Qualità dei dati | Supportato | Non supportato |
Creazione ed esecuzione di regole DQDL | Supportato | Supportato |
Dimensionamento automatico | Non supportato | Supportata |
AWS Glue Supporto Flex | Non supportato | Supportata |
Pianificazione | Supportato durante la valutazione delle regole di Qualità dei dati e tramite Step Functions. | Supportato durante l'utilizzo di Step Functions e flussi di lavoro. |
Identificazione dei record che non hanno superato i controlli di qualità dei dati | Non supportato | Supportata |
Integrazione con Amazon EventBridge | Supportato | Supportato |
Integrazione con Cloudwatch AWS | Supportato | Supportato |
Scrittura dei risultati di qualità dei dati in Amazon S3 | Supportato | Supportato |
Qualità incrementale dei dati | Supportato tramite predicati pushdown | Supportato tramite segnalibri AWS Glue |
AWS CloudFormation supporto | Supportato | Supportato |
Rilevamento delle anomalie basato su ML | Non supportato | Supportata |
Regole dinamiche | Non supportato | Supportata |
Considerazioni
Prendi in considerazione i seguenti elementi prima di utilizzare AWS Glue Data Quality:
-
Le regole di qualità dei dati non possono valutare origini dati annidate o di tipo elenco. Per informazioni, consulta Appiattimento di strutture annidate.
Terminologia
L'elenco seguente definisce i termini correlati alla qualità AWS Glue dei dati.
- Data Quality Definition Language (DQDL)
-
Linguaggio specifico del dominio che è possibile utilizzare per scrivere regole di qualità AWS Glue dei dati.
Per ulteriori informazioni su DQDL, consulta la guida di Riferimento a Data Quality Definition Language (DQDL).
- qualità dei dati
-
Descrive in che modo un set di dati soddisfa il suo scopo specifico. AWS Glue Data Quality valuta le regole rispetto a un set di dati per misurare la qualità dei dati. Ogni regola verifica caratteristiche particolari come la freschezza o l'integrità dei dati. Per quantificare la qualità dei dati, è possibile utilizzare un punteggio di qualità dei dati.
- punteggio di qualità dei dati
-
La percentuale di regole sulla qualità dei dati che vengono rispettate (risultano vere) quando si valuta un set di regole con Data Quality. AWS Glue
- regola
-
Un'espressione DQDL che controlla i dati per una caratteristica specifica e restituisce un valore booleano. Per ulteriori informazioni, consulta Struttura delle regole.
- analyzer
-
Un'espressione DQDL che raccoglie statistiche sui dati. Un analizzatore raccoglie statistiche sui dati che possono essere utilizzate dagli algoritmi ML per rilevare anomalie e problemi di qualità dei dati nel tempo. hard-to-detect
- set di regole
-
Una AWS Glue risorsa che comprende una serie di regole sulla qualità dei dati. Un set di regole deve essere associato a una tabella in AWS Glue Data Catalog. Quando salvi un set di regole, AWS Glue assegna un nome della risorsa Amazon (ARN) al set di regole.
- punteggio di qualità dei dati
-
La percentuale di regole sulla qualità dei dati che vengono rispettate (risultano vere) quando si valuta un set di regole con AWS Glue Qualità dei dati.
- osservazione
-
Un'intuizione non confermata generata da AWS Glue analizzando le statistiche dei dati raccolte da regole e analizzatori nel tempo.
Limiti
AWS Glue Limiti del servizio Data Quality:
-
Puoi avere 2.000 regole in un set di regole. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.
-
La dimensione del set di regole è di 65 KB. Se i tuoi set di regole sono più grandi, ti consigliamo di suddividerli in più set di regole.
-
AWS Glue Data Quality raccoglie statistiche quando crei una regola o un analizzatore. Non vi è alcun costo associato alla memorizzazione di queste statistiche. Tuttavia, esiste un limite di 100.000 statistiche per account e tali statistiche verranno conservate per un massimo di due anni.
Note di rilascio per AWS Glue la qualità dei dati
Questo argomento descrive le funzionalità introdotte in AWS Glue Data Quality.
Disponibilità generale: nuove funzionalità
Le seguenti nuove funzionalità sono disponibili con la disponibilità generale di AWS Glue Data Quality:
La capacità di identificare quali record non hanno superato i controlli di qualità dei dati è ora supportata in AWS Glue Studio
Nuovi tipi di regole sulla qualità dei dati, come la convalida dell'integrità referenziale dei dati tra due set di dati, il confronto dei dati tra due set di dati e il controllo dei tipi di dati
Esperienza utente migliorata in AWS Glue Data Catalog
Supporto per Apache Iceberg, Apache Hudi e Delta Lake
Supporto per Amazon Redshift
Notifica semplificata con Amazon EventBridge
AWS CloudFormation supporto per la creazione di set di regole
Miglioramenti delle prestazioni: opzione di memorizzazione nella cache in ETL e AWS Glue Studio per prestazioni più rapide nella valutazione della qualità dei dati
27 novembre 2023 (anteprima)
-
Le funzionalità di rilevamento delle anomalie basate su ML sono ora disponibili in AWS Glue ETL e AWS Glue Studio. In questo modo, ora puoi rilevare anomalie e problemi di qualità hard-to-detect dei dati
-
Dynamic Rules consente di fornire soglie dinamiche (ad esempio:)
RowCount> avg(last(10))
12 marzo 2024
-
Miglioramenti DQDL
26 giugno 2024
-
Miglioramenti DQDL
-
DQDL ora supporta la clausola where in modo da poter filtrare i dati prima di applicare le regole DQ
-
7 agosto 2024
-
Il rilevamento delle anomalie e le regole dinamiche sono ora disponibili a livello generale
22 novembre 2024
-
Nuovi tipi di regole per la gestione della qualità dei dati per i file
-
Controlli predefiniti della qualità dei dati nei job di Visual ETL
6 dicembre 2024
-
AWS Glue Data Quality ora supporta Amazon SageMaker AI LakeHouse tabelle e tabelle Iceberg, Delta e HUDI AWS Lake Formation gestite in Data Catalog ed ETL