Lignage des données dans Amazon DataZone (version préliminaire) - Amazon DataZone

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lignage des données dans Amazon DataZone (version préliminaire)

Important

La fonctionnalité de traçabilité des données d'Amazon DataZone est actuellement disponible dans une version préliminaire.

Le lignage des données dans Amazon DataZone est une fonctionnalité OpenLineage compatible API pilotée par les utilisateurs qui peut vous aider à capturer et à visualiser les événements liés au lignage, depuis ou via des systèmes OpenLineage compatibles, afin de retracer l'origine des donnéesAPIs, de suivre les transformations et de visualiser la consommation de données interorganisationnelle. Il vous fournit une vue d'ensemble de vos actifs de données afin de connaître leur origine et leur chaîne de connexions. Les données de lignage incluent des informations sur les activités du catalogue DataZone de données commerciales d'Amazon, notamment des informations sur les actifs catalogués, les abonnés à ces actifs et les activités qui se déroulent en dehors du catalogue de données commerciales capturé par programme à l'aide du. APIs

Grâce à la OpenLineage compatibilité DataZone d'AmazonAPIs, les administrateurs de domaines et les producteurs de données peuvent capturer et stocker des événements de lignage autres que ceux disponibles sur Amazon DataZone, y compris les transformations dans Amazon S3, AWS Glue et d'autres services. Cela fournit une vue complète aux consommateurs de données et les aide à avoir confiance dans l'origine de l'actif, tandis que les producteurs de données peuvent évaluer l'impact des modifications apportées à un actif en comprenant son utilisation. En outre, DataZone les versions d'Amazon font le suivi de chaque événement, ce qui permet aux utilisateurs de visualiser le lignage à tout moment ou de comparer les transformations liées à l'historique d'un actif ou d'une tâche. Cette généalogie historique permet de mieux comprendre l'évolution des données, ce qui est essentiel pour le dépannage, l'audit et la garantie de l'intégrité des actifs de données.

Grâce au lignage des données, vous pouvez accomplir les tâches suivantes sur Amazon DataZone :

  • Comprendre la provenance des données : savoir d'où proviennent les données renforce la confiance dans les données en vous permettant de comprendre clairement leurs origines, leurs dépendances et leurs transformations. Cette transparence permet de prendre des décisions fondées sur les données en toute confiance.

  • Comprenez l'impact des modifications apportées aux pipelines de données : lorsque des modifications sont apportées aux pipelines de données, le lignage peut être utilisé pour identifier tous les consommateurs en aval qui seront concernés. Cela permet de garantir que les modifications sont apportées sans perturber les flux de données critiques.

  • Identifiez la cause première des problèmes de qualité des données : si un problème de qualité des données est détecté dans un rapport en aval, le lignage, en particulier le lignage au niveau des colonnes, peut être utilisé pour retracer les données (au niveau des colonnes) afin d'identifier le problème jusqu'à sa source. Cela peut aider les ingénieurs de données à identifier et à résoudre le problème.

  • Améliorez la gouvernance et la conformité des données : le lignage au niveau des colonnes peut être utilisé pour démontrer la conformité aux réglementations en matière de gouvernance et de confidentialité des données. Par exemple, le lignage au niveau des colonnes peut être utilisé pour indiquer où les données sensibles (telles quePII) sont stockées et comment elles sont traitées dans les activités en aval.

Types de nœuds de lignage dans Amazon DataZone

dans Amazon DataZone, les informations relatives au lignage des données sont présentées dans des nœuds qui représentent des tables et des vues. Selon le contexte du projet, par exemple un projet sélectionné en haut à gauche dans le portail de données, les producteurs peuvent consulter à la fois l'inventaire et les actifs publiés, tandis que les consommateurs ne peuvent consulter que les actifs publiés. Lorsque vous ouvrez l'onglet Lignage pour la première fois sur la page des détails de l'actif, le nœud du jeu de données catalogué est le point de départ pour naviguer en amont ou en aval à travers les nœuds de lignage de votre graphe de lignage.

Les types de nœuds de lignage de données pris en charge par Amazon DataZone sont les suivants :

  • Nœud de jeu de données : ce type de nœud inclut des informations de lignée de données relatives à un actif de données spécifique.

    • Les nœuds de jeu de données qui incluent des informations sur les actifs AWS Glue ou Amazon Redshift publiés dans le DataZone catalogue Amazon sont générés automatiquement et incluent une icône AWS Glue ou Amazon Redshift correspondante dans le nœud.

    • Les nœuds de jeu de données qui incluent des informations sur les actifs qui ne sont pas publiés dans le DataZone catalogue Amazon sont créés manuellement par les administrateurs de domaine (producteurs) et sont représentés par une icône de ressource personnalisée par défaut dans le nœud.

  • Nœud Job (run) : ce type de nœud affiche les détails de la tâche, y compris la dernière exécution d'une tâche donnée et les détails de l'exécution. Ce nœud capture également plusieurs exécutions de la tâche et peut être consulté dans l'onglet Historique des détails du nœud. Vous pouvez consulter les détails du nœud en choisissant l'icône du nœud.

Attributs clés des nœuds de lignage

L'sourceIdentifierattribut d'un nœud de lignée représente les événements qui se produisent sur un ensemble de données. Le nœud sourceIdentifier de lignée est l'identifiant de l'ensemble de données (table/vue, etc.). Il est utilisé pour l'application de l'unicité sur les nœuds de lignée. Par exemple, il ne peut pas y avoir deux nœuds de lignage identiquessourceIdentifier. Voici des exemples de sourceIdentifier valeurs pour différents types de nœuds :

  • Pour le nœud de jeu de données avec le type de jeu de données correspondant :

    • Ressource : amazon.datazone.asset/< > assetId

    • Annonce (ressource publiée) : listingId amazon.datazone.listing/< >

    • AWS <region><account-id><database>Table à colle : arn:aws:glue : ::table//<table-name>

    • <redshift/redshift-serverless> <region><account-id><table-type (table/view etc) > <database><schema>Table/vue Amazon Redshift : arn:aws : : : :/</>//clusterIdentifierworkgroupName<table-name>

    • Pour tout autre type de nœud de jeu de données importé à l'aide d'événements d'exécution open-lineage,<namespace>/<name>de l'ensemble de données d'entrée/sortie est utilisé en tant que nœud. sourceIdentifier

  • Pour les emplois :

    • <jobs_namespace>Pour les nœuds de travail importés à l'aide d'événements d'exécution open-lineage,. <job_name>est utilisé commesourceIdentifier.

  • Pour les exécutions de tâches :

    • <jobs_namespace>Pour les nœuds d'exécution de tâches importés à l'aide d'événements d'exécution open-lineage,. <job_name>/<run_id>est utilisé commesourceIdentifier.

Pour les actifs créés à l'aide de createAssetAPI, ils sourceIdentifier doivent être mis à jour createAssetRevision API à l'aide pour permettre de mapper l'actif aux ressources en amont.

Visualisation du lignage des données

DataZoneLa page détaillée des actifs d'Amazon fournit une représentation graphique du lignage des données, ce qui permet de visualiser plus facilement les relations entre les données en amont ou en aval. La page de détails des actifs fournit les fonctionnalités suivantes pour naviguer dans le graphique :

  • Lignage au niveau des colonnes : étendez le lignage au niveau des colonnes lorsqu'il est disponible dans les nœuds du jeu de données. Cela affiche automatiquement les relations avec les nœuds de jeu de données en amont ou en aval si les informations de la colonne source sont disponibles.

  • Recherche par colonne : lorsque l'affichage par défaut du nombre de colonnes est 10. S'il y a plus de 10 colonnes, la pagination est activée pour accéder au reste des colonnes. Pour afficher rapidement une colonne en particulier, vous pouvez effectuer une recherche sur le nœud du jeu de données qui répertorie uniquement la colonne recherchée.

  • Afficher uniquement les nœuds du jeu de données : si vous souhaitez afficher uniquement les nœuds de lignage des ensembles de données et filtrer les nœuds de travail, vous pouvez choisir l'icône de contrôle Ouvrir la vue en haut à gauche de la visionneuse de graphes et activer l'option Afficher uniquement les nœuds du jeu de données. Cela supprimera tous les nœuds de tâche du graphe et vous permettra de naviguer uniquement dans les nœuds du jeu de données. Notez que lorsque l'option Afficher uniquement les nœuds du jeu de données est activée, le graphe ne peut pas être développé en amont ou en aval.

  • Volet de détails : les détails de chaque nœud de lignée sont capturés et affichés lorsqu'ils sont sélectionnés.

    • Le nœud du jeu de données possède un volet de détails qui affiche tous les détails capturés pour ce nœud pour un horodatage donné. Chaque nœud de jeu de données comporte 3 onglets, à savoir : Informations sur le lignage, Schéma et onglet Historique. L'onglet historique répertorie les différentes versions de l'événement de lignage capturé pour ce nœud. Tous les détails capturés API sont affichés à l'aide de formulaires de métadonnées ou d'un JSON visualiseur.

    • Le nœud Job dispose d'un volet détaillé pour afficher les détails de la tâche sous forme d'onglets, à savoir : Informations sur le travail et Historique. Le volet de détails capture également les requêtes ou expressions capturées dans le cadre de l'exécution du job. L'onglet historique répertorie les différentes versions de l'événement d'exécution d'une tâche capturée pour cette tâche. Tous les détails capturés API sont affichés à l'aide de formulaires de métadonnées ou d'un JSON visualiseur.

  • Onglets de version : tous les nœuds de lignage d'Amazon DataZone Data Lineage sont dotés d'un système de versionnement. Pour chaque nœud de jeu de données ou nœud de travail, les versions sont capturées sous forme d'historique, ce qui vous permet de naviguer entre les différentes versions pour identifier ce qui a changé au fil du temps. Chaque version ouvre un nouvel onglet sur la page de lignage pour faciliter la comparaison ou le contraste.

Autorisation du lignage des données sur Amazon DataZone

Autorisations d'écriture : pour publier des données de généalogie sur Amazon DataZone, vous devez avoir un IAM rôle doté d'une politique d'autorisation incluant une ALLOW action sur le PostLineageEventAPI. Cette IAM autorisation se produit au niveau de la couche API Gateway.

Autorisations de lecture : GetLineageNode deux opérations sont incluses dans la politique AmazonDataZoneDomainExecutionRolePolicy gérée. Chaque utilisateur du DataZone domaine Amazon peut donc les invoquer pour parcourir le graphe de lignage des données. ListLineageNodeHistory

Exemple d'expérience de lignage de données sur Amazon DataZone

Vous pouvez utiliser l'expérience d'échantillonnage du lignage de données pour parcourir et comprendre le lignage des données sur Amazon DataZone, notamment en parcourant le tracé en amont ou en aval dans votre graphe de lignage de données, en explorant les versions et le lignage au niveau des colonnes.

Suivez la procédure suivante pour essayer l'exemple d'expérience de lignage de données sur Amazon : DataZone

  1. Accédez au portail de DataZone données Amazon URL et connectez-vous à l'aide de l'authentification unique (SSO) ou de vos AWS informations d'identification. Si vous êtes un DataZone administrateur Amazon, vous pouvez accéder à la DataZone console Amazon à l'adresse https://console.aws.amazon.com/datazone et vous connecter avec l' Compte AWS endroit où le domaine a été créé, puis choisir Open data portal.

  2. Choisissez n'importe quelle ressource de données disponible pour ouvrir la page de détails de la ressource.

  3. Sur la page de détails de la ressource, choisissez l'onglet Lineage, puis sélectionnez Preview, puis Try sample lineage.

  4. Dans la fenêtre contextuelle de lignage des données, choisissez Démarrer la visite guidée du lignage des données.

    À ce stade, un onglet en plein écran qui fournit tout l'espace des informations sur le lignage s'affiche. L'exemple de graphe de lignage des données est initialement affiché avec un nœud de base d'une profondeur à chaque extrémité, en amont et en aval. Vous pouvez développer le graphique en amont ou en aval. Les informations des colonnes sont également disponibles pour que vous puissiez choisir et voir comment le lignage circule dans les nœuds.

Utilisation du lignage DataZone de données Amazon par programmation

Pour utiliser la fonctionnalité de traçabilité des données dans Amazon DataZone, vous pouvez invoquer ce qui suit : APIs