Visualisation des scores de qualité des données et des anomalies - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Visualisation des scores de qualité des données et des anomalies

Dans cette section, nous allons explorer le tableau de bord de qualité des données et les différentes fonctionnalités qu'il fournit.

Une fois que votre travail est réussi, cliquez sur l'onglet Qualité des données pour afficher les scores de qualité des données et les anomalies.

La capture d'écran montre l'onglet Qualité des données sélectionné ainsi que les scores et les mesures.

Les composants suivants de l'onglet Qualité des données fournissent des informations utiles.

  1. Cliquez sur l'onglet Qualité des données pour afficher les indicateurs de qualité des données.

  2. Sélectionnez un identifiant d'exécution de tâche spécifique pour afficher le score de qualité des données.

  3. Ce volet affiche trois informations importantes. Vous pouvez choisir chacune d'elles pour accéder à des tables spécifiques afin de visualiser les anomalies, les statistiques de données ou les règles.

    • Score de qualité des données lorsque les règles sont configurées.

    • Nombre de statistiques recueillies par Rules and Analyzers.

    • Nombre total d'anomalies détectées.

  4. Ce graphique de tendance montre l'évolution de la qualité des données au fil du temps. Vous pouvez survoler la tendance et atteindre un moment précis où les scores de qualité des données se sont détériorés.

  5. L'évolution des anomalies au fil du temps vous indiquera le nombre d'anomalies détectées au fil du temps.

  6. Onglets :

    • L'onglet Règles est l'onglet par défaut qui affiche la liste de toutes les règles et de leur statut. Les règles évaluées sont utiles dans le cas de règles dynamiques pour afficher la valeur réelle à laquelle la règle a été évaluée.

    • L'onglet Statistiques répertorie toutes les statistiques, vous permettant de visualiser les métriques et les tendances au fil du temps.

    • L'onglet Anomalies affiche la liste des anomalies détectées.

Visualisation des anomalies et apprentissage de l'algorithme de détection des anomalies

La capture d'écran montre l'onglet Anomalies avec les métriques.

Appels pour l'image ci-dessus :

  1. Lorsque des anomalies sont détectées, cliquez sur l'anomalie ou sélectionnez l'onglet Anomalies

  2. AWS Glue Data Quality fournit une explication détaillée de l'anomalie, de la valeur réelle et de la plage prévue

  3. AWS Glue Data Quality indique une courbe de tendance. Il a la valeur réelle, une tendance dérivée basée sur les valeurs réelles (ligne rouge), la limite supérieure et la limite inférieure

  4. AWS Glue Data Quality recommande des règles de qualité des données qui peuvent être utilisées pour capturer les modèles futurs. Vous pouvez copier toutes les règles qui vous sont recommandées et les appliquer à votre nœud de qualité des données pour capturer efficacement ces modèles.

  5. Vous pouvez fournir des entrées au modèle d'apprentissage automatique (ML) pour exclure les valeurs anormales, afin de garantir que les futures exécutions détectent les anomalies avec précision. Si vous n'excluez pas explicitement les anomalies, AWS Glue Data Quality les prendra automatiquement en compte dans le modèle pour les prévisions futures. Il est important de noter que seule la dernière exécution reflétera les entrées du modèle que vous fournissez. Par exemple, si vous revenez en arrière et que vous avez exclu des points anormaux lors de quelques essais précédents, le modèle ne reflétera pas ces modifications à moins que vous ne consultiez et ne mettiez à jour les entrées du modèle lors de la dernière exécution. Le modèle continuera à utiliser les entrées fournies précédemment jusqu'à ce que vous apportiez les ajustements nécessaires lors de la dernière exécution. En gérant activement l'exclusion des valeurs anormales, vous pouvez affiner la compréhension par le modèle ML de ce qui constitue une anomalie par rapport à vos modèles de données et à vos exigences spécifiques, ce qui permet une détection plus précise des anomalies au fil du temps.

Afficher les statistiques des données au fil du temps et fournir des informations de formation

Parfois, vous souhaiterez peut-être consulter les statistiques ou les profils de données et voir comment ils progressent au fil du temps. Pour ce faire, choisissez Statistiques ou ouvrez l'onglet Statistiques. Vous pouvez ensuite consulter les dernières statistiques recueillies par AWS Glue Data Quality.

La capture d'écran montre l'onglet Statistiques avec les statistiques des ensembles de données et des colonnes.

Cliquez sur Afficher les tendances pour voir l'évolution de chacune des statistiques au fil du temps.

La capture d'écran montre l'onglet Statistiques avec les statistiques des ensembles de données et des colonnes.
  1. Vous pouvez sélectionner la statistique pour une colonne spécifiée

  2. Vous pouvez suivre l'évolution des tendances

  3. Vous pouvez sélectionner des valeurs anormales et choisir de les exclure ou de les inclure. En fournissant ces informations, l'algorithme exclura ou inclura les points de données anormaux identifiés et réentraînera le modèle. Ce processus de réentraînement garantit une détection précise des anomalies à l'avenir, car le modèle tire les leçons des commentaires que vous avez fournis pour déterminer quelles valeurs doivent être considérées comme anormales ou non.

    Grâce à cette boucle de rétroaction, vous pouvez affiner la compréhension par l'algorithme de ce qui constitue une anomalie par rapport à vos modèles de données spécifiques et à vos exigences commerciales. En excluant les valeurs qui ne doivent pas être signalées comme des anomalies, ou en incluant des valeurs qui ont été oubliées, le modèle réentraîné pourra mieux différencier les points de données attendus des points de données réellement anormaux.