AWS Glue Qualité des données - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue Qualité des données

AWS Glue La qualité des données vous permet de mesurer et de surveiller la qualité de vos données afin de prendre de bonnes décisions commerciales. Construit sur le DeeQu framework open source, AWS Glue Data Quality fournit une expérience gérée et sans serveur. AWS Glue Data Quality fonctionne avec le langage de définition de la qualité des données (DQDL), qui est un langage spécifique au domaine que vous utilisez pour définir des règles de qualité des données. Pour en savoir plus sur les types de règles pris en charge DQDL et les types de règles pris en charge, consultezRéférence au langage de définition de la qualité des données (DQDL).

Pour plus d'informations sur les produits et les tarifs, consultez la page de service relative à AWS Glue Data Quality.

Avantages et fonctionnalités clés

Les avantages et les principales caractéristiques de la qualité AWS Glue des données sont les suivants :

  • Sans serveur : aucune installation, aucun correctif ni aucune maintenance ne sont nécessaires.

  • Démarrez rapidement — AWS Glue Data Quality analyse rapidement vos données et crée des règles de qualité pour vous. Vous pouvez commencer en deux clics : « Créer des règles de qualité des données → Recommander des règles ».

  • Détectez les problèmes de qualité des données : utilisez l'apprentissage automatique (ML) pour détecter les anomalies et les problèmes de qualité des hard-to-detect données.

  • Improvisez vos règles : avec plus de 25 règles out-of-the-box DQ à partir de laquelle vous pouvez commencer, vous pouvez créer des règles adaptées à vos besoins spécifiques.

  • Évaluer la qualité et prendre des décisions métier en toute confiance : une fois les règles évaluées, vous obtenez un score de qualité des données qui vous donne une vue d'ensemble de l'état de vos données. Utilisez le score de qualité des données pour prendre des décisions métier en toute confiance.

  • Concentrez-vous sur les données erronées : la qualité AWS Glue des données vous aide à identifier les enregistrements exacts qui ont entraîné une baisse de vos scores de qualité. Identifiez-les facilement, mettez-les en quarantaine et corrigez-les.

  • Payez au fur et à mesure : aucune licence annuelle n'est nécessaire pour utiliser AWS Glue Data Quality.

  • Pas de blocage : AWS Glue Data Quality repose sur l'open source DeeQu, ce qui vous permet de conserver les règles que vous créez dans un langage ouvert.

  • Contrôles de qualité des données — Vous pouvez appliquer des contrôles de qualité des données Data Catalog et des AWS Glue ETL pipelines, ce qui vous permet de gérer la qualité des données au repos et en transit.

  • Détection de la qualité des données basée sur le ML : utilisez l'apprentissage automatique (ML) pour détecter les anomalies et les problèmes de qualité hard-to-detect des données.

  • Langage ouvert pour exprimer les règles : garantit que les règles de qualité des données sont créées de manière cohérente et simple. Les utilisateurs professionnels peuvent facilement exprimer les règles de qualité des données dans un langage clair qu'ils peuvent comprendre. Pour les ingénieurs, ce langage offre la flexibilité nécessaire pour générer du code, implémenter un contrôle de version cohérent et automatiser les déploiements.

Comment ça marche

Il existe deux points d'entrée pour la qualité AWS Glue des données : les AWS Glue ETL emplois AWS Glue Data Catalog et les emplois. Cette section fournit un aperçu des cas d'utilisation et des AWS Glue fonctionnalités pris en charge par chaque point d'entrée.

Qualité des données pour le AWS Glue Data Catalog

AWS Glue Data Quality évalue les objets stockés dans le. AWS Glue Data Catalog Cela permet aux non-codeurs de configurer facilement des règles de qualité des données. Ces personas incluent les gestionnaires de données et des analystes métier.

Vous pouvez choisir cette option pour les cas d'utilisation suivants :

  • Vous souhaitez effectuer des tâches de qualité des données sur des jeux de données que vous avez déjà catalogués dans AWS Glue Data Catalog.

  • Vous travaillez sur la gouvernance des données et avez besoin d'identifier ou d'évaluer en permanence les problèmes de qualité des données dans votre lac de données.

Vous pouvez gérer la qualité des données du catalogue de données à l'aide des interfaces suivantes :

  • La console AWS Glue de gestion

  • AWS Glue APIs

Pour commencer à utiliser AWS Glue Data Quality for the AWS Glue Data Catalog seePremiers pas avec AWS Glue Data Quality pour le Data Catalog.

Qualité des données pour les AWS Glue ETL emplois

AWS Glue Data Quality for AWS Glue ETL Jobs vous permet d'effectuer des tâches proactives en matière de qualité des données. Les tâches proactives vous aident à identifier et à filtrer les données défectueuses avant de charger un jeu de données dans votre lac de données.

Vous pouvez choisir la qualité des données pour les ETL tâches dans les cas d'utilisation suivants :

  • Vous souhaitez intégrer des tâches liées à la qualité des données dans vos ETL tâches

  • Vous souhaitez écrire du code qui définit les tâches relatives à la qualité des données dans ETL des scripts

  • Vous souhaitez gérer la qualité des données qui circulent dans vos pipelines de données visuels

Vous pouvez gérer la qualité des données pour les ETL tâches à l'aide des interfaces suivantes :

  • AWS Glue Studio, AWS Glue Studio carnets de notes et sessions AWS Glue interactives

  • AWS Glue bibliothèques pour l'ETLécriture de scripts

  • AWS Glue APIs

Pour commencer à utiliser la qualité des données pour les ETL tâches, voir Tutoriel : Commencer à utiliser la qualité des données dans le guide de AWS Glue Studio l'utilisateur.

Comparaison de la qualité des données pour le catalogue de données avec la qualité des données pour les ETL tâches

Ce tableau fournit un aperçu des fonctionnalités prises en charge par chaque point d'entrée pour AWS Glue Data Quality.

Fonctionnalité Qualité des données pour le catalogue de données Qualité des données pour les ETL emplois
Sources de données Amazon S3, Amazon Redshift, JDBC sources compatibles avec le catalogue de données et formats de lacs de données transactionnels tels qu'Apache Iceberg, Apache Hudi et Delta Lake. Notez que si les tables sont AWS Lake Formation gérées, Iceberg, Delta et les HUDI tables ne sont pas prises en charge. Amazon Athena les vues cataloguées dans ne AWS Glue Data Catalog sont pas prises en charge. Toutes les sources de données sont prises en charge par AWS Glue, y compris les connecteurs personnalisés et les connecteurs tiers.
Recommandations règles de la qualité des données Pris en charge Non pris en charge
Créez et exécutez DQDL des règles Pris en charge Pris en charge
Auto scaling (Mise à l'échelle automatique) Non pris en charge Pris en charge
AWS Glue Support flexible Non pris en charge Pris en charge
Planification Pris en charge lors de l'évaluation des règles de la qualité des données et via Step Functions. Pris en charge lors de l'utilisation des Step Functions et des flux de travail.
Identification des enregistrements ayant échoué aux contrôles de qualité des données Non pris en charge Pris en charge
Intégration à Amazon EventBridge Pris en charge Pris en charge
Intégration à AWS Cloudwatch Pris en charge Pris en charge
Écrire les résultats de la qualité des données dans Amazon S3 Pris en charge Pris en charge
Qualité de données incrémentielle Pris en charge par le pushdown de prédicats Supporté par les AWS Glue signets
AWS CloudFormation soutien Pris en charge Pris en charge
Détection des anomalies basée sur le ML Non pris en charge Pris en charge
Règles dynamiques Non pris en charge Pris en charge

Considérations

Tenez compte des éléments suivants avant d'utiliser AWS Glue Data Quality :

Terminologie

La liste suivante définit les termes relatifs à la qualité AWS Glue des données.

Langage de définition de la qualité des données (DQDL)

Langage spécifique à un domaine que vous pouvez utiliser pour rédiger des règles de qualité AWS Glue des données.

Pour en savoir plusDQDL, consultez le Référence au langage de définition de la qualité des données (DQDL) guide.

qualité des données

Décrit dans quelle mesure un ensemble de données répond à son objectif spécifique. AWS Glue La qualité des données évalue les règles par rapport à un ensemble de données afin de mesurer la qualité des données. Chaque règle vérifie des caractéristiques particulières comme l'actualisation ou l'intégrité des données. Pour quantifier la qualité des données, vous pouvez utiliser un score de qualité des données.

score de qualité des données

Pourcentage de règles de qualité des données qui sont satisfaites (aboutissent à un résultat vrai) lorsque vous évaluez un ensemble de règles avec AWS Glue Data Quality.

règle

DQDLExpression qui vérifie la présence d'une caractéristique spécifique dans vos données et renvoie une valeur booléenne. Pour de plus amples informations, veuillez consulter Structure des règles.

analyseur

DQDLExpression qui collecte des statistiques de données. Un analyseur collecte des statistiques de données qui peuvent être utilisées par les algorithmes de machine learning pour détecter les anomalies et les problèmes de qualité hard-to-detect des données au fil du temps.

jeu de règles

AWS Glue Ressource comprenant un ensemble de règles de qualité des données. Un jeu de règles doit être associé à une table dans AWS Glue Data Catalog. Lorsque vous enregistrez un ensemble de règles, AWS Glue attribuez-lui un nom de ressource Amazon (ARN).

score de qualité des données

Pourcentage de règles de qualité des données qui sont respectées (génèrent « true ») lorsque vous évaluez un jeu de règles avec AWS Glue Data Quality.

observation

Un aperçu non confirmé généré par AWS Glue en analysant les statistiques de données rassemblées à partir de règles et d’analyseurs au fil du temps.

Limites

AWS Glue Limites du service de qualité des données :

  • Un ensemble de règles peut contenir 2 000 règles. Si vos ensembles de règles sont plus importants, nous vous recommandons de les diviser en plusieurs ensembles de règles.

  • La taille de l'ensemble de règles est de 65 Ko. Si vos ensembles de règles sont plus importants, nous vous recommandons de les diviser en plusieurs ensembles de règles.

  • AWS Glue Data Quality collecte des statistiques lorsque vous créez une règle ou un analyseur. Le stockage de ces statistiques est gratuit. Cependant, il y a une limite de 100 000 statistiques par compte, et ces statistiques seront conservées pendant un maximum de deux ans.

Notes de publication AWS Glue relatives à la qualité des données

Cette rubrique décrit les fonctionnalités introduites dans AWS Glue Data Quality.

Disponibilité générale : nouvelles fonctionnalités

Les nouvelles fonctionnalités suivantes sont disponibles avec la disponibilité générale de AWS Glue Data Quality :

  • La capacité d'identifier les enregistrements ayant échoué aux contrôles de qualité des données est désormais prise en charge dans AWS Glue Studio

  • Nouveaux types de règles de qualité des données tels que la validation de l'intégrité référentielle des données entre deux jeux de données, la comparaison des données entre deux jeux de données et les vérifications du type de données.

  • Expérience utilisateur améliorée dans le AWS Glue Data Catalog

  • Prise en charge d'Apache Iceberg, d'Apache Hudi et de Delta Lake

  • Prise en charge d'Amazon Redshift

  • Notification simplifiée avec Amazon EventBridge

  • AWS CloudFormation support pour la création d'ensembles de règles

  • Améliorations des performances : option de mise en cache dans ETL et AWS Glue Studio pour des performances plus rapides lors de l'évaluation de la qualité des données

27 novembre 2023 (aperçu)

12 mars 2024

26 juin 2024

  • DQDLaméliorations

    • DQDLprend désormais en charge la clause where afin que vous puissiez filtrer les données avant d'appliquer les règles DQ

7 août 2024

  • La détection des anomalies et les règles dynamiques sont désormais disponibles pour tous