Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluation de la qualité des données avec AWS Glue Studio
AWS Glue Data Quality évalue et contrôle la qualité de vos données en fonction de règles que vous définissez. Ainsi, les données qui nécessitent une action sont identifiables facilement. Dans AWS Glue Studio, vous pouvez ajouter des nœuds de qualité des données à votre tâche visuelle afin d'appliquer des règles de qualité des données aux tableaux de votre catalogue de données. Vous pouvez ensuite contrôler et évaluer les modifications apportées à vos jeux de données tout au long de leur évolution. Pour un aperçu de la manière d'utiliser la qualité des données de AWS Glue dans AWS Glue Studio, regardez la vidéo suivante.
Voici les étapes générales décrivant l'utilisation d'AWS Glue Data Quality :
-
Création de règles de qualité des données : créez un ensemble de règles de qualité des données à l'aide du DQDL générateur en choisissant des ensembles de règles intégrés que vous configurez.
-
Configuration d'une tâche de qualité des données : définissez des actions en fonction des résultats relatifs à la qualité des données et des options de sortie.
-
Enregistrement et exécution d'une tâche de qualité des données : créez et exécutez une tâche. L'enregistrement de la tâche inclut les ensembles de règles que vous avez créés pour la tâche.
-
Contrôle et vérification des résultats relatifs à la qualité des données : vérifiez les résultats une fois la tâche terminée. Vous pouvez également planifier l'exécution de la tâche à une date future.
Avantages
Les analystes, les ingénieurs et les spécialistes des données peuvent utiliser le nœud Évaluer la qualité des données dans AWS Glue Studio pour analyser, configurer, surveiller et améliorer la qualité des données dans l'éditeur de tâches visuel. L'utilisation d'un nœud de qualité des données présente les avantages suivants :
-
Détection des problèmes de qualité des données : la création de règles qui vérifient les caractéristiques de vos jeux de données permet de détecter les problèmes.
-
Démarrage simplifié : vous pouvez commencer par utiliser des règles et des actions prédéfinies.
-
Intégration étroite : vous pouvez utiliser des nœuds de qualité des données dans AWS Glue Studio, car la qualité des données de AWS Glue s'exécute au-dessus de AWS Glue Data Catalog.