Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Évaluation de la qualité des données pour les tâches ETL dans AWS Glue Studio

Mode de mise au point
Évaluation de la qualité des données pour les tâches ETL dans AWS Glue Studio - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dans ce didacticiel, vous allez commencer avec AWS Glue Qualité des données dans AWS Glue Studio. Vous allez apprendre à :

  • Créer des règles à l'aide du générateur de règles DQDL (Data Quality Definition Language).

  • Spécifier les actions relatives à la qualité des données, les données de sortie et l'emplacement de sortie des résultats en matière de qualité des données.

  • Vérifier les résultats en matière de qualité des données.

Pour vous entraîner avec un exemple, consultez le billet de blog Getting started with AWS Glue Data Quality for ETL pipelines.

Étape 1 : Ajout du nœud de transformation Évaluer la qualité des données à la tâche visuelle

À ce stade, vous ajoutez le nœud d'évaluation de la qualité des données à l'éditeur de tâches visuel.

Pour ajouter le nœud de qualité des données, procédez comme suit  :
  1. Dans la console AWS Glue Studio, choisissez Visual avec une source et une cible dans la section Create job, puis choisissez Create.

  2. Choisissez le nœud auquel vous souhaitez appliquer la transformation de qualité des données. Il s'agit généralement d'un nœud de transformation ou d'une source de données.

  3. Ouvrez le panneau de ressources sur la gauche en cliquant sur l'icône « + ». Recherchez ensuite Évaluer la qualité des données dans la barre de recherche, puis sélectionner Évaluer la qualité des données dans les résultats de la recherche.

  4. L'éditeur de tâches visuel affiche la ramification du nœud de transformation Évaluer la qualité des données à partir du nœud que vous avez sélectionné. Sur le côté droit de la console, l'onglet Transform (Transformer) s'ouvre automatiquement. Si vous devez modifier le nœud parent, choisissez l'onglet Propriétés du nœud, puis choisissez le nœud parent dans le menu déroulant.

    Lorsque vous choisissez un nouveau nœud parent, une nouvelle connexion est établie entre le nœud parent et le nœud Évaluer la qualité des données (Évaluer la qualité des données). Supprimez tous les nœuds parents indésirables. Un seul nœud parent peut être connecté à un nœud Évaluer la qualité des données.

  5. La transformation Évaluer la qualité des données prend en charge plusieurs parents afin que vous puissiez valider les règles de qualité des données sur plusieurs jeux de données. Les règles qui prennent en charge plusieurs ensembles de données incluent ReferentialIntegrity DatasetMatch, SchemaMatch, RowCountMatch, et AggregateMatch.

    Lorsque vous ajoutez plusieurs entrées à la transformation Évaluer la qualité des données, vous devez sélectionner votre entrée « principale ». Votre entrée principale est le jeu de données dont vous souhaitez valider la qualité des données. Tous les autres nœuds ou entrées sont traités comme des références.

    Vous pouvez utiliser la transformation Évaluer la qualité des données pour identifier les enregistrements spécifiques qui ont échoué aux contrôles de qualité des données. Nous vous recommandons de choisir votre jeu de données principal, car de nouvelles colonnes qui signalent les enregistrements défectueux sont ajoutées au jeu de données principal.

  6. Vous pouvez spécifier des alias pour les sources de données d'entrée. Les alias constituent un autre moyen de référencer la source d'entrée lorsque vous utilisez la ReferentialIntegrity règle. Comme une seule source de données peut être désignée comme source principale, chaque source de données supplémentaire que vous ajoutez nécessite un alias.

    Dans l'exemple suivant, la ReferentialIntegrity règle spécifie la source de données d'entrée par le nom d'alias et effectue une one-to-one comparaison avec la source de données principale.

    Rules = [ ReferentialIntegrity “Aliasname.name” = 1 ]

Étape 2 : Création d'une règle à l'aide de DQDL

Cette étape permet de créer une règle avec DQDL. Dans le cadre de ce didacticiel, vous créez une règle unique à l'aide du type de règle Exhaustivité. Ce type de règle compare le pourcentage de valeurs complètes (non nulles) d'une colonne à une expression donnée. Pour plus d'informations sur l'utilisation de DQDL, consultez DQDL.

  1. Dans l'onglet Transformer, ajoutez un Type de règle en cliquant sur le bouton Insérer. Le type de règle est alors ajouté à l'éditeur de règles dans lequel vous pouvez saisir les paramètres de la règle.

    Note

    Lorsque vous modifiez des règles, assurez-vous qu'elles se trouvent entre crochets et qu'elles sont séparées par des virgules. Par exemple, une expression de règle complète a la syntaxe suivante :

    Rules= [ Completeness "year">0.8, Completeness "month">0.8 ]

    Cet exemple spécifie le paramètre d'exhaustivité pour les colonnes « année » et « mois ». Pour que la règle soit transmise, ces colonnes doivent être « complètes » à plus de 80 % ou contenir des données dans plus de 80 % des instances pour chaque colonne respective.

    Dans cet exemple, recherchez et insérez le type de règle Completeness (Exhaustivité). Le type de règle est alors ajouté à l'éditeur de règles. La syntaxe de ce type de règle est la suivante : Completeness <COL_NAME> <EXPRESSION>.

    Une expression doit être fournie comme paramètre pour la plupart des types de règles afin de créer une réponse booléenne. Pour plus d'informations sur les expressions DQDL prises en charge, consultez DQDL expressions. Vous ajoutez ensuite le nom de la colonne.

  2. Dans le générateur de règles DQDL, choisissez l'onglet Schéma. Trouvez le nom de la colonne dans le schéma d'entrée à l'aide de la barre de recherche. Le schéma d'entrée affiche le nom de la colonne et le type de données.

  3. Dans l'éditeur de règles, cliquez à droite du type de règle pour insérer le curseur au point d'insertion de la colonne. Vous pouvez également saisir le nom de la colonne dans la règle.

    Par exemple, dans la liste des colonnes de la liste des schémas d'entrée, cliquez sur le bouton Insérer à côté de la colonne (ici, il s'agit de année). La colonne est alors ajoutée à la règle.

  4. Ajoutez ensuite une expression pour évaluer la règle dans l'éditeur de règles. Comme le type de règle Exhaustivité vérifie le pourcentage de valeurs complètes (non nulles) dans une colonne par rapport à une expression donnée, saisissez une expression telle que > 0.8. Cette règle vérifie si la colonne contient plus de 80 % de valeurs complètes (non nulles).

Étape 3 : Configuration des résultats de la qualité des données

Une fois les règles de qualité des données créées, vous pouvez sélectionner des options supplémentaires pour spécifier la sortie du nœud de qualité des données.

  1. Dans Data quality transform output (Sortie de transformation de la qualité des données), choisissez l'une des options suivantes :

    • Données d'origine : permet de fournir les données d'entrée d'origine. Lorsque vous choisissez cette option, un nouveau nœud enfant « rowLevelOutcomes » est ajouté à la tâche. Le schéma correspond au schéma du jeu de données principal qui a été transmis en tant qu'entrée à la transformation. Cette option est utile si vous souhaitez simplement transmettre les données et faire échouer la tâche en cas de problèmes de qualité.

      Un autre cas d'utilisation est celui où vous souhaitez détecter des enregistrements défectueux qui ont échoué aux contrôles de qualité des données. Pour détecter les enregistrements défectueux, choisissez l'option Ajouter de nouvelles colonnes pour indiquer les erreurs de qualité des données. Cette action ajoute quatre nouvelles colonnes au schéma de la transformation « rowLevelOutcomes ».

      • DataQualityRulesPass(tableau de chaînes) — Fournit un tableau de règles ayant passé avec succès les contrôles de qualité des données.

      • DataQualityRulesFail(tableau de chaînes) — Fournit un tableau de règles ayant échoué aux contrôles de qualité des données.

      • DataQualityRulesSkip(tableau de chaînes) — Fournit un tableau de règles qui ont été ignorées. Les règles suivantes ne peuvent pas identifier les enregistrements d'erreur, car elles sont appliquées au niveau du jeu de données.

        • AggregateMatch

        • ColumnCount

        • ColumnExists

        • ColumnNamesMatchPattern

        • CustomSql

        • RowCount

        • RowCountMatch

        • StandardDeviation

        • Mean

        • ColumnCorrelation

      • DataQualityEvaluationResult— Indique le statut « Réussi » ou « Échec » au niveau de la ligne. Notez que vos résultats globaux peuvent être un ÉCHEC, mais que certains enregistrements peuvent avoir réussis. Par exemple, il se peut que la RowCount règle ait échoué, mais que toutes les autres règles aient réussi. Dans de tels cas, l'état de ce champ est « Réussi ».

  2. Résultats relatifs à la qualité des données : permet de fournir les règles configurées et leur état de réussite ou d'échec. Cette option est utile si vous souhaitez écrire vos résultats dans Amazon S3 ou dans d'autres bases de données.

  3. Paramètres de sortie de qualité des données (facultatif) : choisissez Paramètres de sortie de qualité des données pour afficher le champ Emplacement des résultats relatifs à la qualité des données. Choisissez ensuite Parcourir pour rechercher un emplacement Amazon S3 à définir comme cible de sortie relative à la qualité des données.

Étape 4 : Configuration des actions relatives à la qualité des données

Vous pouvez utiliser des actions pour publier des métriques CloudWatch ou pour arrêter des tâches en fonction de critères spécifiques. Les actions sont disponibles uniquement lorsqu'une règle est créée. Lorsque vous choisissez cette option, les mêmes métriques sont également publiées dans Amazon EventBridge. Vous pouvez utiliser ces options pour créer des alertes de notification.

  • En cas d'échec d'un ensemble de règles : vous pouvez choisir la procédure à suivre en cas d'échec d'un ensemble de règles pendant l'exécution de la tâche. Si vous souhaitez que la tâche échoue en cas d'échec de la qualité des données, choisissez le moment où la tâche doit échouer en sélectionnant l'une des options suivantes. Par défaut, cette action n'est pas sélectionnée et la tâche termine son exécution même si les règles de qualité des données échouent.

    • Aucun : si vous choisissez Aucun (par défaut), la tâche n'échoue pas et continue de s'exécuter malgré les échecs de l'ensemble de règles.

    • Échec de la tâche après le chargement des données sur la cible : la tâche échoue et aucune donnée n'est enregistrée. Pour enregistrer les résultats, choisissez un emplacement Amazon S3 où les résultats relatifs à la qualité des données seront enregistrés.

    • Échec de la tâche sans chargement vers les données cibles : cette option échoue immédiatement en cas d'erreur de qualité des données. Aucune cible de données n'est chargée, y compris les résultats de la transformation de la qualité des données.

Étape 5 : Consultation des résultats relatifs à la qualité des données

Une fois la tâche exécutée, choisissez l'onglet Qualité des données pour consulter les résultats relatifs à la qualité des données.

  1. Pour chaque tâche exécutée, vous pouvez consulter les résultats relatifs à la qualité des données. Chaque nœud affiche un état de qualité des données et des informations détaillées. Choisissez un nœud pour afficher toutes les règles et l'état de chaque règle.

  2. Choisissez Télécharger les résultats pour télécharger un fichier CSV contenant des informations sur l'exécution de la tâche et les résultats relatifs à la qualité des données.

  3. Si plusieurs tâches exécutées sont associées à des résultats relatifs à la qualité des données, vous pouvez filtrer les résultats par date et par plage horaire. Choisissez Filtrer par plage de dates et d'heures pour agrandir la fenêtre de filtre.

  4. Choisissez une plage relative ou une plage absolue. Pour les plages absolues, sélectionnez une date et entrez des valeurs pour l'heure de début et l'heure de fin à l'aide du calendrier. Lorsque vous avez terminé, choisissez Appliquer.

Qualité automatique des données

Lorsque vous créez une tâche AWS Glue ETL avec Amazon S3 comme cible, AWS Glue ETL active automatiquement une règle de qualité des données qui vérifie si les données chargées comportent au moins une colonne. Cette règle est conçue pour garantir que les données chargées ne sont pas vides ou endommagées. Toutefois, si cette règle échoue, la tâche n'échouera pas ; au contraire, vous remarquerez une réduction de votre score de qualité des données. En outre, la détection des anomalies est activée par défaut, ce qui permet de surveiller le nombre de colonnes des données. En cas de variations ou d'anomalies dans le nombre de colonnes, AWS Glue ETL vous informera de ces anomalies. Cette fonctionnalité vous aide à identifier les problèmes potentiels liés aux données et à prendre les mesures appropriées. Pour consulter la règle de qualité des données et sa configuration, vous pouvez cliquer sur la cible Amazon S3 dans votre tâche AWS Glue ETL. La configuration de la règle sera affichée, comme indiqué sur la capture d'écran fournie.

La capture d'écran montre les options de qualité automatique des données disponibles pour la sélection.

Vous pouvez ajouter des règles de qualité des données supplémentaires en sélectionnant Modifier la configuration de la qualité des données.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.