Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration de la détection des anomalies dans les tâches AWS Glue ETL
Pour commencer à détecter les anomalies dans AWS Glue Studio, ouvrez une tâche AWS Glue Studio et cliquez sur Evaluate Data Quality Transform.
En activant cette fonctionnalité, AWS Glue Data Quality analysera vos données au fil du temps afin de détecter les anomalies. Il fournit des statistiques et des observations précieuses sur vos données, ce qui vous permet de prendre des mesures en cas d'anomalie identifiée.
Consultez la documentation sur la détection des anomalies pour comprendre le fonctionnement interne de cette fonctionnalité.
Activation de la détection des anomalies
Pour activer la détection d’anomalies dans AWS Glue Studio :
-
Choisissez le nœud Qualité des données dans votre tâche, puis cliquez sur l’onglet Détection des anomalies. Activez l'option Activer la détection des anomalies.
-
Définissez les données à surveiller pour détecter les anomalies en choisissant Ajouter un analyseur. Vous pouvez remplir deux champs : Statistiques et Données.
-
Les statistiques sont des informations sur la forme et les autres propriétés de vos données. Vous pouvez choisir une ou plusieurs statistiques à la fois, ou choisir Toutes les statistiques. Les statistiques incluent : l'exhaustivité, l'unicité, la moyenne, la somme StandardDeviation, l'entropie DistinctValuesCount, UniqueValueRatio etc. Reportez-vous à la documentation des analyseurs pour plus de détails.
-
Les données sont les colonnes de votre ensemble de données. Vous pouvez choisir toutes les colonnes ou des colonnes individuelles.
-
-
Choisissez Ajouter une zone de détection d’anomalies pour enregistrer vos modifications. Une fois que vous avez ajouté des analyseurs, vous pouvez les voir dans la section Champ de détection des anomalies.
Vous pouvez également utiliser le menu Actions pour modifier vos analyseurs, ou choisir l’onglet Éditeur de jeu de règles et modifier l’analyseur directement dans le bloc-notes de l’éditeur de jeu de règles. Vous verrez les analyseurs que vous avez enregistrés selon les règles que vous avez créées.
Rules = [ ] Analyzers = [ Completeness “id” ]
Une fois l'ensemble de règles et les analyseurs mis à jour configurés, AWS Glue Data Quality surveille en permanence les flux de données entrants. Il peut signaler des anomalies potentielles par le biais d'alertes ou d'arrêts de travail, en fonction de vos paramètres. Cette surveillance proactive permet de garantir la qualité et l'intégrité des données dans l'ensemble de vos pipelines de données.
Dans la section suivante, vous apprendrez comment surveiller efficacement les anomalies identifiées par le système. Vous apprendrez également à consulter et à analyser les statistiques de données recueillies par AWS Glue Data Quality. En outre, vous apprendrez comment fournir des commentaires au modèle d'apprentissage automatique qui alimente la fonction de détection des anomalies. Cette boucle de rétroaction est essentielle pour améliorer la précision du modèle et garantir qu'il peut détecter efficacement les anomalies conformes aux exigences spécifiques de votre entreprise et à vos modèles de données.