DataZone Terminologie et concepts d'Amazon - Amazon DataZone

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

DataZone Terminologie et concepts d'Amazon

Amazon DataZone est un service de gestion des données qui vous permet de cataloguer, de découvrir, de partager et de gérer plus rapidement et plus facilement les données stockées sur AWS, sur site et auprès de sources tierces. Avec Amazon DataZone, les administrateurs et les responsables de la gestion des données chargés de superviser les actifs de données d'une entreprise peuvent gérer et régir l'accès aux données à l'aide de contrôles précis. Ces contrôles sont conçus pour garantir un accès avec le bon niveau de privilèges et de contexte. Amazon DataZone permet aux ingénieurs, aux data scientists, aux chefs de produit, aux analystes et aux utilisateurs professionnels d'accéder plus facilement aux données au sein d'une organisation afin qu'ils puissent découvrir, utiliser et collaborer pour obtenir des informations basées sur les données.

Lorsque vous débutez avec Amazon DataZone, il est important que vous compreniez ses concepts clés, sa terminologie et ses composants.

DataZone Composants Amazon

Amazon DataZone inclut les quatre principaux composants suivants :

  • Catalogue de données commerciales : vous pouvez utiliser ce composant pour cataloguer les données de votre organisation en fonction du contexte commercial et permettre ainsi à tous les membres de votre organisation de trouver et de comprendre rapidement les données.

  • Publiez et abonnez des flux de travail : vous pouvez utiliser ces flux de travail automatisés pour sécuriser les données entre les producteurs et les consommateurs en libre-service et pour garantir que tous les membres de votre organisation ont accès aux bonnes données aux bonnes fins.

  • Projets et environnements

    • Dans Amazon, les DataZone projets sont des regroupements de personnes, d'actifs (données) et d'outils basés sur des cas d'utilisation professionnelle utilisés pour simplifier l'accès au AWS analyses. Les projets fournissent des zones dans lesquelles les membres du projet peuvent collaborer, échanger des données et partager des actifs. Par défaut, les projets sont confiés de telle sorte que seuls ceux qui y sont explicitement ajoutés puissent accéder aux données et aux outils d'analyse qu'ils contiennent. Les projets gèrent la propriété des actifs produits conformément aux politiques du projet relatives à l'accès des consommateurs de données.

    • Dans les DataZone projets Amazon, les environnements sont des ensembles de ressources configurées nulles ou plus (par exemple, un compartiment Amazon S3, un AWS Glue base de données, ou groupe de travail Amazon Athena) sur laquelle un ensemble donné de IAM principes (par exemple, les utilisateurs disposant d'autorisations de contributeur) peut opérer.

  • Portail de données (en dehors du AWS Console de gestion) : il s'agit d'une application Web basée sur un navigateur dans laquelle différents utilisateurs peuvent cataloguer, découvrir, gérer, partager et analyser des données en libre-service. Le portail de données authentifie les utilisateurs avec des IAM informations d'identification ou des informations d'identification existantes auprès de votre fournisseur d'identité via AWS IAM Identity Center.

Que sont les DataZone domaines Amazon ?

Vous pouvez utiliser DataZone les domaines Amazon pour organiser vos actifs, vos utilisateurs et leurs projets. En associant des éléments supplémentaires AWS comptes associés à vos DataZone domaines Amazon, vous pouvez regrouper vos sources de données. Vous pouvez ensuite publier les ressources issues de ces sources de données dans le catalogue de votre domaine, à l'aide de formulaires de métadonnées et de glossaires qui améliorent l'exhaustivité et la qualité des métadonnées. Vous pouvez également rechercher et parcourir ces ressources pour voir quelles données sont publiées dans le domaine. En outre, vous pouvez rejoindre des projets pour collaborer avec d'autres utilisateurs, vous abonner à des ressources et utiliser des environnements de projet pour accéder à des outils d'analyse, notamment Amazon Athena et Amazon Redshift. Les DataZone domaines Amazon vous offrent la flexibilité nécessaire pour répondre aux besoins en données et en analyse de votre structure organisationnelle, qu'il s'agisse de créer un seul DataZone domaine Amazon pour votre entreprise ou plusieurs DataZone domaines Amazon pour différentes unités commerciales.

Quels sont les DataZone projets et les environnements Amazon ?

Amazon DataZone permet aux équipes et aux utilisateurs d'outils d'analyse de collaborer sur des projets en créant des groupes d'équipes, d'outils et de données basés sur des cas d'utilisation.

  • Dans Amazon DataZone, les projets permettent à un groupe d'utilisateurs de collaborer sur divers cas d'utilisation commerciale impliquant la publication, la découverte, l'abonnement et la consommation de données du DataZone catalogue Amazon. Les membres du projet consomment les actifs du DataZone catalogue Amazon et en produisent de nouveaux à l'aide d'un ou de plusieurs flux de travail analytiques. Les projets soutiennent les activités suivantes au sein du portail de données :

    • Les propriétaires de projets peuvent ajouter des membres avec des autorisations de propriétaire et de contributeur

    • Les membres du projet peuvent être SSO des utilisateurs, SSO des groupes et des IAM utilisateurs

    • Les membres du projet peuvent demander un abonnement aux actifs du catalogue de données

      Les approbations d'abonnement sont fournies aux projets

  • Dans un DataZone projet Amazon, les environnements sont des ensembles de ressources configurées nulles ou plus (par exemple, un Amazon S3, un AWS Glue une base de données, ou un groupe de travail Amazon Athena), avec un ensemble donné de IAM principes qui peuvent opérer sur ces ressources. Les environnements sont créés à l'aide de profilés d'environnement, qui sont des ensembles préconfigurés de ressources et de plans qui fournissent des modèles réutilisables pour créer des environnements. Les profils d'environnement définissent des paramètres tels que Compte AWS ou région dans laquelle les environnements sont déployés.

Que sont les DataZone plans Amazon ?

Un plan avec lequel l'environnement est créé définit ce que AWS outils et services (par exemple, AWS Glue (ou Amazon Redshift), les membres du projet auquel appartient l'environnement peuvent l'utiliser lorsqu'ils travaillent avec les actifs du catalogue Amazon DataZone .

Dans la version actuelle d'Amazon DataZone, les plans par défaut suivants sont pris en charge :

Nom du plan Description Ressources créées
Plan directeur de Data Lake

Permet aux membres DataZone du projet Amazon de lancer les services aux producteurs et aux consommateurs de Data Lake au sein de l'environnement.

En tant que consommateur, il permet aux membres DataZone du projet Amazon d'accéder à une copie « en lecture seule » des ressources gérées par Lake Formation directement dans Amazon Athena et dans d'autres moteurs de requêtes pris en charge par Lake Formation.

En tant que producteur, il permet aux membres DataZone du projet Amazon de créer de nouvelles tables LakeFormation gérées à l'aide d'Amazon Athena et de les publier dans le catalogue Amazon DataZone.

Permet aux utilisateurs de créer et d'interroger des tables de Lake Formation à l'aide d'Amazon Athena. groupe de travail Amazon Athena, AWS Glue base de données avec des autorisations « en lecture seule » sur Lake Formation, des IAM autorisations « en lecture seule » et un accès à Amazon S3 géré par le projet. AWS Glue base de données avec les autorisations « créer » et « accorder » à Lake Formation, les autorisations « lecture » et « écriture »IAM, AWS Glue ETL(extraire, transformer et charger) avec balisage.
Plan d'entrepôt de données

En tant que consommateur, ce plan permet aux membres DataZone du projet Amazon de se connecter à leurs propres clusters Amazon Redshift pour interroger des magasins de données distants et créer et stocker de nouveaux ensembles de données.

En tant que producteur, ce plan permet aux membres DataZone du projet Amazon de se connecter à leurs propres clusters Amazon Redshift pour interroger des magasins de données distants, créer de nouveaux ensembles de données et les publier dans le catalogue Amazon. DataZone

Accès à l'éditeur de requêtes Amazon Redshift, accès en « lecture » aux sources de données abonnées depuis le DataZone catalogue Amazon, possibilité de créer des ressources locales dans le cluster Amazon Redshift configuré. Accès à l'éditeur de requêtes Amazon Redshift, accès en « lecture » aux sources de données abonnées depuis le DataZone catalogue Amazon, possibilité de créer et de publier des ressources à partir du cluster Amazon Redshift configuré.
Plan Amazon Sagemaker

Ce plan aide les producteurs de données et les consommateurs à passer facilement SageMaker à Amazon pour collaborer sur des projets d'apprentissage automatique (ML) tout en renforçant la gouvernance de l'accès aux données et aux actifs de machine learning. Grâce à la nouvelle intégration intégrée entre Amazon DataZone et Amazon SageMaker, les consommateurs et les producteurs de données peuvent rationaliser la gouvernance du machine learning lors de la configuration de l'infrastructure, collaborer sur des initiatives commerciales et gérer facilement les données et les actifs de machine learning.

Vous pouvez créer un SageMaker domaine Amazon qui permet de rechercher, de souscrire et de publier des données et des actifs de machine learning sur Amazon DataZone. Vous pouvez également vous abonner et publier sur AWS Bases de données Glue et formation de lacs tels que configurés.

Que sont les flux de DataZone production et de publication d'Amazon ?

Création des actifs d'inventaire du projet

Pour pouvoir utiliser Amazon DataZone pour cataloguer vos données, vous devez d'abord les importer (actifs) en tant qu'inventaire de votre projet sur Amazon DataZone. La création d'un inventaire pour un projet rend les actifs accessibles uniquement aux membres de ce projet. Les ressources de l'inventaire du projet ne sont pas accessibles à tous les utilisateurs du domaine lors de la recherche ou de la navigation, sauf si elles sont publiées explicitement. Dans la version actuelle d'Amazon DataZone, vous pouvez ajouter des actifs à l'inventaire du projet de la manière suivante :

  • Créez et exécutez des sources de données via le portail de données ou à l'aide d'Amazon DataZone APIs. Dans la version actuelle d'Amazon DataZone, vous pouvez créer et exécuter des sources de données pour AWS Glue et Amazon Redshift. En créant et en exécutant AWS Sources de données Glue ou Amazon Redshift, vous créez des actifs dans l'inventaire d'un projet choisi et vous importez leurs métadonnées techniques depuis les tables de la base de données source ou les entrepôts de données sous forme d'inventaire sur Amazon. DataZone

  • À l'aide deAPIs, vous pouvez créer des actifs à partir des types de ressources système disponibles (AWS Glue, Amazon Redshift, Amazon S3 (objets) ou à partir de vos types de ressources personnalisés.

    • Créez des types d'actifs personnalisés dans l'inventaire d'un projet à l'aide d'Amazon DataZone APIs. Les types d'actifs personnalisés peuvent inclure des modèles de machine learning, des tableaux de bord, des tables sur site, etc.

    • Créez des actifs à partir de ces types d'actifs personnalisés à l'aide d'Amazon DataZone APIs.

  • Créez manuellement des ressources pour les objets S3 à l'aide du portail DataZone de données Amazon.

Gestion des actifs d'inventaire de votre projet : après avoir créé un inventaire de projet, les propriétaires de données peuvent organiser leurs actifs d'inventaire avec les métadonnées commerciales requises en ajoutant ou en mettant à jour les noms commerciaux (actif et schéma), les descriptions (actif et schéma), lisez-moi, les termes du glossaire (actif et schéma) et les formulaires de métadonnées. Vous pouvez le faire via le portail de données ou en utilisant Amazon DataZone APIs. Chaque modification apportée à votre actif crée une nouvelle version de l'inventaire.

Publication des actifs de l'inventaire du projet dans le DataZone catalogue Amazon

L'étape suivante de l'utilisation d'Amazon DataZone pour cataloguer vos données consiste à rendre les actifs d'inventaire de votre projet accessibles aux utilisateurs du domaine. Vous pouvez le faire en publiant les actifs d'inventaire dans le DataZone catalogue Amazon. Seule la dernière version de la ressource d'inventaire peut être publiée dans le catalogue et seule la dernière version publiée est active dans le catalogue de découverte. Si un actif d'inventaire est mis à jour après sa publication dans le DataZone catalogue Amazon, vous devez le publier à nouveau de manière explicite pour que la dernière version figure dans le catalogue de découverte. Dans la version actuelle d'Amazon DataZone, vous pouvez publier les actifs d'inventaire de votre projet dans le DataZone catalogue Amazon de la manière suivante :

  • Publiez manuellement les actifs d'inventaire de votre projet dans le DataZone catalogue Amazon, soit via le portail de données, soit en utilisant Amazon DataZone APIs.

  • Dans le cadre de la création ou de la modification de sources de données, activez l'option Publier votre AWS Collez les actifs dans le catalogue ou publiez vos actifs Amazon Redshift dans les paramètres du catalogue à utiliser lors des exécutions planifiées ou automatisées des sources de données. Lorsque ce paramètre est activé, l'exécution d'une source de données ajoute des actifs à l'inventaire de votre projet, puis publie également les actifs d'inventaire dans le DataZone catalogue Amazon. Notez que si vous publiez directement, les ressources peuvent ne pas contenir de métadonnées commerciales et seront directement accessibles à tous les utilisateurs du domaine. Vous pouvez utiliser ce paramètre sur vos sources de données via le portail de données ou via Amazon DataZone APIs.

Quels sont les processus DataZone d'abonnement et d'expédition d'Amazon ?

Une fois vos actifs publiés dans le DataZone catalogue Amazon, les utilisateurs de votre domaine peuvent découvrir ces actifs, demander et accéder à ces actifs, et continuer à utiliser Amazon DataZone pour gérer, partager et analyser ces actifs.

Les utilisateurs demandent l'accès à une ressource en s'abonnant à cette ressource pour le compte d'un projet. Une fois qu'une demande d'abonnement est créée, les propriétaires de l'actif reçoivent une notification et peuvent examiner la demande d'abonnement et décider de l'approuver ou de la rejeter. Si la demande d'abonnement est approuvée par le propriétaire des données, le projet abonné obtient l'accès à cette ressource.

Une fois qu'une demande d'abonnement est approuvée, Amazon DataZone lance un flux de traitement des abonnements qui ajoute automatiquement l'actif à tous les environnements applicables au sein du projet en créant les subventions nécessaires dans AWS Lake Formation ou Amazon Redshift. Cela permet aux membres du projet abonnés d'interroger la ressource à l'aide de l'un des outils de requête (Amazon Athena ou éditeur de requêtes Amazon Redshift) de leur environnement.

Amazon DataZone ne peut déclencher cette logique d'expédition automatisée que pour les actifs gérés (cela inclut AWS Glue (tables) et Amazon Redshift (tables et vues). Pour tous les autres types d'actifs (actifs non gérés), Amazon ne DataZone peut pas déclencher automatiquement l'expédition, mais publie un événement sur Amazon Eventbridge avec tous les détails nécessaires dans la charge utile de l'événement afin que vous puissiez créer les subventions nécessaires en dehors d'Amazon. DataZone Amazon fournit DataZone également updateSubscriptionStatus API ce qui vous permet de mettre à jour le statut de l'abonnement une fois qu'il est rempli en dehors d'Amazon DataZone afin qu'Amazon DataZone puisse informer les membres du projet qu'ils peuvent commencer à consommer l'actif.

Les personas des utilisateurs d'Amazon DataZone

Les principaux DataZone utilisateurs d'Amazon sont les suivants :

  • Administrateurs de domaine responsables de la configuration d'Amazon DataZone en tant que plateforme d'analyse pour leur organisation.

    Dans le contexte d'Amazon DataZone, les administrateurs de domaine installent Amazon DataZone dans AWS comptes, création de DataZone domaines Amazon et configuration AWS associations de comptes et associations de fournisseurs d'identité avec des DataZone domaines Amazon. Les administrateurs de domaine utilisent également d'autres AWS consoles de service telles que AWS Organization et Service Catalog pour configurer Amazon DataZone.

  • Utilisateurs de données qui sont les principaux utilisateurs d'Amazon DataZone (éditeurs d'actifs et abonnés) pour leurs tâches d'analyse et d'apprentissage automatique.

    Les utilisateurs de données incluent les professionnels de l'analyse des données, les scientifiques des données et les utilisateurs du système qui produisent et consomment des actifs de données. Dans le contexte d'Amazon DataZone, les utilisateurs de données créent et rejoignent des projets et des environnements, s'abonnent et consomment des actifs de données à l'aide d'outils d'analyse ou d'apprentissage automatique préconfigurés, et publient les actifs de données de sortie dans le catalogue de DataZone domaines Amazon pour les partager avec d'autres.

  • Développeurs de systèmes qui créent des modèles d'infrastructure personnalisés et intègrent Amazon DataZone à des catalogues internes ou à des systèmes de production.

    Dans le contexte d'Amazon DataZone, les développeurs de systèmes élaborent des plans d'environnement (modèles d'infrastructure) ou un pipeline CI/CD Infrastructure-As-Code en tant que fournisseur d'environnement, des pipelines de données pour promouvoir les actifs de données dans tous les environnements, des adaptateurs de synchronisation des catalogues et d'exécution des subventions d'abonnement pour les intégrer aux catalogues internes, ou des intégrations entre DataZone APIs Amazon et des interfaces utilisateur internes ou des systèmes de production si nécessaire.

  • Des responsables de la gouvernance des données qui maîtrisent les définitions et les risques liés à la sécurité organisationnelle, à la confidentialité et aux autres politiques de conformité et qui s'assurent que l'utilisation d'Amazon DataZone dans leur entreprise est conforme à ces définitions.

DataZone Terminologie Amazon

Domaine

Un DataZone domaine Amazon est l'entité organisatrice qui connecte vos actifs, vos utilisateurs et leurs projets. Avec DataZone les domaines Amazon, vous avez la flexibilité nécessaire pour répondre aux besoins en données et en analyse de votre structure organisationnelle, qu'il s'agisse de créer un seul DataZone domaine Amazon pour votre entreprise ou plusieurs zones de données, des domaines pour différentes unités commerciales ou équipes.

Unité de domaine

Les unités de domaine vous permettent d'organiser facilement vos actifs et autres entités de domaine au sein d'unités commerciales et d'équipes spécifiques. Pour configurer un partage de données sécurisé et efficace au sein et entre les unités commerciales de votre organisation, vous pouvez créer des unités de domaine au sein d'Amazon DataZone et permettre à des utilisateurs sélectionnés au sein de chaque unité commerciale de se connecter et de partager leurs actifs dans le catalogue. Les unités de domaine peuvent également être utilisées pour permettre aux propriétaires de ressources, tels que AWS propriétaires de comptes, pour configurer les DataZone autorisations d'Amazon sur leurs ressources. Les unités de domaine fournissent une autorité déléguée des propriétaires de comptes aux propriétaires d'unités de domaine et elles peuvent configurer des autorisations d'autorisation sur les profils d'environnement (créés à l'aide de configurations de plan), au nom des propriétaires de comptes. Pour de plus amples informations, veuillez consulter Unités de domaine et politiques d'autorisation sur Amazon DataZone.

Politique d'autorisation

Les politiques DataZone d'autorisation Amazon sont un ensemble de contrôles au sein d'Amazon DataZone appliqués à des entités telles que les projets, les plans, les environnements, le glossaire et les formulaires de métadonnées. Ces politiques définissent qui peut créer ces entités et gérer leur cycle de vie sur le DataZone portail Amazon.

Au sein d'une unité de DataZone domaine Amazon, vous pouvez attribuer les politiques d'autorisation suivantes à vos utilisateurs et groupes afin de leur accorder des autorisations spécifiques :

  • Politique de création d'unités de domaine

  • Politique de création de projets

  • Politique d'adhésion au projet

  • Politique d'hypothèse de propriété des unités de domaine

  • Politique d'hypothèse de propriété du projet

Pour de plus amples informations, veuillez consulter Attribuer des politiques d'autorisation aux utilisateurs et aux groupes au sein d'une unité DataZone de domaine Amazon.

Au sein d'une unité de DataZone domaine Amazon, vous pouvez attribuer les politiques d'autorisation suivantes à vos projets afin de leur accorder des autorisations spécifiques :

  • Politique de création de glossaires

  • Politique de création de formulaires de métadonnées

  • Politique de création de types d'actifs personnalisés

Pour de plus amples informations, veuillez consulter Attribuer des politiques d'autorisation aux projets au sein d'une unité DataZone de domaine Amazon.

Dans une configuration de plan spécifique, vous pouvez attribuer les politiques d'autorisation suivantes aux propriétaires de projets et d'unités de domaine :

  • Créez des profils d'environnement à l'aide de ce plan. Cette politique peut être attribuée aux DataZone projets Amazon et les autorise à créer des profils d'environnement à l'aide de ce plan.

  • Accordez des autorisations pour créer des profils d'environnement à l'aide de ce plan : cette politique peut être attribuée aux propriétaires d'unités de domaine et les autorise à accorder des autorisations aux projets pour créer des profils d'environnement à l'aide de ce plan.

Pour de plus amples informations, veuillez consulter Attribuez des politiques d'autorisation dans les configurations Amazon DataZone Blueprint.

Compte associé

Associer votre AWS les comptes dotés de DataZone domaines Amazon vous permettent de publier des données à partir de ces derniers AWS des comptes dans le DataZone catalogue Amazon et créez DataZone des projets Amazon pour utiliser vos données sur plusieurs AWS comptes. Les demandes d'association de comptes ne peuvent être initiées que dans AWS comptes possédant un DataZone domaine Amazon. Les demandes d'association de comptes ne peuvent être acceptées que par les utilisateurs administratifs du compte invité AWS comptes. Une fois un AWS le compte est associé à un DataZone domaine Amazon, vous pouvez enregistrer vos sources de données telles que AWS Glue le catalogue et Amazon Redshift dans ce compte vers ce domaine. Le fait d'être associé permet également de AWS compte pour créer des DataZone projets et des environnements Amazon.

Un Compte AWS peut être associé à un ou plusieurs DataZone domaines Amazon.

Source de données

Dans Amazon DataZone, vous pouvez utiliser des sources de données pour importer les métadonnées techniques des actifs (données) depuis les bases de données sources ou les entrepôts de données vers Amazon DataZone. Dans la version actuelle d'Amazon DataZone, vous pouvez créer et exécuter des sources de données pour AWS Glue et Amazon Redshift. En créant une source de données, vous établissez une connexion entre Amazon DataZone et la source (AWS Glue Data Catalog ou Amazon Redshift Warehouse) qui vous permet de lire les métadonnées techniques, notamment les noms de tables, les noms de colonnes et les types de données. En créant une source de données, vous lancez également l'exécution initiale de la source de données qui crée de nouvelles ressources ou met à jour des actifs existants sur Amazon DataZone. Lors de la création d'une source de données ou une fois la source de données créée avec succès, vous avez également la possibilité de définir un calendrier pour les exécutions de votre source de données.

Exécution de la source de données

Dans Amazon DataZone, une exécution de source de données est une tâche qu'Amazon DataZone exécute afin de créer des actifs dans les inventaires de projets et également de publier éventuellement des actifs d'inventaire de projet dans le DataZone catalogue Amazon. Les exécutions de sources de données peuvent être automatisées (lancées lors de la création initiale d'une source de données), planifiées ou manuelles. Les critères de sélection des données vous permettent d'affiner les ensembles de données existants et futurs à intégrer dans les inventaires des projets ou le DataZone catalogue Amazon, ainsi que la fréquence des mises à jour des métadonnées de ces actifs d'inventaire ou de catalogue.

Objectif d'abonnement

Sur Amazon DataZone, les objectifs d'abonnement vous permettent d'accéder aux données auxquelles vous êtes abonné dans le cadre de vos projets. Un objectif d'abonnement indique l'emplacement (par exemple, une base de données ou un schéma) et les autorisations requises (par exemple, un IAM rôle) qu'Amazon DataZone peut utiliser pour établir une connexion avec les données sources et pour créer les autorisations nécessaires afin que les membres du DataZone projet Amazon puissent commencer à interroger les données auxquelles ils se sont abonnés.

Demande d'abonnement

Sur Amazon DataZone, une demande d'abonnement est un processus qu'un DataZone projet Amazon doit suivre pour avoir accès à un actif spécifique. Les demandes d'abonnement peuvent être approuvées, rejetées, révoquées ou accordées.

Ressource

Dans Amazon DataZone, un actif est une entité qui présente un seul objet de données physique (par exemple, un tableau, un tableau de bord, un fichier) ou un objet de données virtuel (par exemple, une vue).

Asset type

Les types d'actifs définissent la manière dont les actifs sont représentés dans le DataZone catalogue Amazon. Un type d'actif définit le schéma d'un type d'actif spécifique. Lorsque des actifs sont créés, ils sont validés par rapport au schéma défini par leur type d'actif (par défaut, la dernière version). Lorsqu'une mise à jour d'un actif a lieu, Amazon DataZone crée une nouvelle version d'actif et permet aux DataZone utilisateurs d'Amazon d'opérer sur toutes les versions d'actifs.

Glossaire commercial

Sur Amazon DataZone, un glossaire commercial est un ensemble de termes commerciaux qui peuvent être associés à des actifs. Un glossaire métier permet de s'assurer que les mêmes termes et définitions sont utilisés au sein d'une organisation dans le cadre de ses différentes tâches d'analyse de données.

Les termes d'un glossaire commercial peuvent être ajoutés aux actifs et aux colonnes pour classer ou améliorer l'identification de ces attributs lors de la recherche. Le glossaire peut être sélectionné comme type de valeur pour un champ dans un formulaire de métadonnées associé à une ressource. Lorsqu'un terme particulier est sélectionné comme valeur pour le champ du formulaire de métadonnées d'un actif, les utilisateurs peuvent rechercher le terme du glossaire commercial et trouver les actifs associés.

Type de formulaire de métadonnées

Un type de formulaire de métadonnées est un modèle qui définit les métadonnées collectées et enregistrées lorsque les actifs sont créés sous forme d'inventaire ou publiés dans un DataZone domaine Amazon. Les types de formulaires de métadonnées peuvent être associés à une ressource de données. Les types de formulaires de métadonnées aident les administrateurs de domaine à définir les formulaires de métadonnées nécessaires pour ce domaine, tels que les informations de conformité, les informations réglementaires ou les classifications. Il permet aux administrateurs de domaine de personnaliser des métadonnées supplémentaires pour leurs actifs. Amazon DataZone propose des types de formulaires de métadonnées système tels que asset-common-details-form -type, column-business-metadata-form -type, glue-table-form-type, glue-view-form-type, redshift-table-form-type, redshift-view-form-type, s3- object-collection-form-type subscription-terms-form-type, et. suggestion-form-type

Formulaire de métadonnées

Dans Amazon DataZone, les formulaires de métadonnées définissent les métadonnées collectées et enregistrées lorsque les actifs sont créés sous forme d'inventaire ou publiés dans un DataZone domaine Amazon. Les définitions des formulaires de métadonnées sont créées dans le domaine du catalogue par un administrateur de domaine. Une définition de formulaire de métadonnées est composée d'une ou de plusieurs définitions de champs, avec prise en charge des types de données booléens, datés, décimaux, entiers, chaînes et valeurs de champs du glossaire commercial.

Un administrateur de domaine applique un formulaire de métadonnées aux actifs de son domaine en ajoutant le formulaire de métadonnées à son domaine. Les éditeurs de ressources fournissent ensuite toutes les valeurs de champ facultatives et obligatoires dans le formulaire de métadonnées.

Projet

Dans Amazon DataZone, les projets permettent à un groupe d'utilisateurs de collaborer sur divers cas d'utilisation commerciale qui impliquent de créer des actifs dans les inventaires de projets et de les rendre ainsi accessibles à tous les membres du projet, puis de publier, de découvrir, de souscrire et de consommer des actifs dans le catalogue Amazon DataZone . Les membres du projet consomment les actifs du DataZone catalogue Amazon et en produisent de nouveaux à l'aide d'un ou de plusieurs flux de travail analytiques. Les membres du projet peuvent être propriétaires ou contributeurs. Les propriétaires de projets peuvent ajouter ou supprimer d'autres utilisateurs en tant que propriétaires ou contributeurs, et ils peuvent modifier ou supprimer des projets. D'autres restrictions imposées aux contributeurs peuvent être définies à l'aide de politiques. Lorsqu'un utilisateur crée un projet, il en devient le premier propriétaire.

Environnement

Un environnement est un ensemble de ressources configurées (par exemple, un compartiment Amazon S3, un AWS Glue une base de données, ou un groupe de travail Amazon Athena), avec un ensemble donné de IAM principes (avec des autorisations de contributeur attribuées) qui peuvent opérer sur ces ressources. Chaque environnement peut également avoir des utilisateurs principaux autorisés à accéder aux ressources et aux données par le biais d'un abonnement et d'un traitement des commandes. Les environnements sont conçus pour stocker des liens exploitables dans AWS services IDEs et consoles externes. Les membres du projet peuvent accéder à des services tels que la console Amazon Athena et bien d'autres via des liens profonds configurés au sein d'un environnement. SSOles utilisateurs et IAM les utilisateurs du projet peuvent être approfondis pour utiliser/accéder à des environnements spécifiques.

Profil environnemental

Sur Amazon DataZone, un profil d'environnement est un modèle que vous pouvez utiliser pour créer des environnements. Les profils d'environnement sont créés à l'aide de plans.

Avec les profils d'environnement, les administrateurs de domaine peuvent encapsuler des plans avec des paramètres préconfigurés, puis les travailleurs des données peuvent créer rapidement un certain nombre de nouveaux environnements en sélectionnant les profils d'environnement existants et en spécifiant les noms des nouveaux environnements. Cela permet aux travailleurs des données de gérer efficacement leurs projets et leurs environnements tout en s'assurant qu'ils respectent les politiques de gouvernance des données appliquées par leurs administrateurs de domaine.

Plan

Un plan avec lequel l'environnement est créé définit ce que AWS outils et services (par exemple, AWS Glue (ou Amazon Redshift), les membres du projet auquel appartient l'environnement peuvent l'utiliser lorsqu'ils travaillent avec les actifs du catalogue Amazon DataZone .

Dans la version actuelle d'Amazon, DataZone les plans par défaut suivants sont pris en charge :

  • Plan du lac de données

  • Plan d'entrepôt de données

  • Plan Amazon Sagemaker

Profil utilisateur

Un profil utilisateur représente DataZone les utilisateurs d'Amazon. Amazon DataZone prend en charge à la fois les IAM rôles et les SSO identités pour interagir avec l'Amazon DataZone Management Console et le portail de données à différentes fins. Les administrateurs de domaine utilisent IAM des rôles pour effectuer le travail administratif initial lié au domaine dans Amazon DataZone Management Console, notamment la création de nouveaux DataZone domaines Amazon, la configuration des types de formulaires de métadonnées et la mise en œuvre de politiques. Les travailleurs des données utilisent leur identité SSO d'entreprise via Identity Center pour se connecter à Amazon DataZone Data Portal et accéder aux projets auxquels ils sont membres.

Profil du groupe

Les profils de groupe représentent des groupes d' DataZone utilisateurs d'Amazon. Les groupes peuvent être créés manuellement ou mappés à des groupes Active Directory de clients professionnels. Sur Amazon DataZone, les groupes ont deux objectifs. Tout d'abord, un groupe peut être mappé à une équipe d'utilisateurs dans l'organigramme, réduisant ainsi le travail administratif du DataZone chef de projet Amazon lorsque de nouveaux employés rejoignent ou quittent une équipe. Ensuite, les administrateurs d'entreprise utilisent des groupes Active Directory pour gérer et mettre à jour les statuts des utilisateurs. Les administrateurs de DataZone domaine Amazon peuvent donc utiliser ces appartenances à des groupes pour mettre en œuvre les politiques de DataZone domaine Amazon.

Administrateur de domaine

Dans Amazon DataZone, le IAM principal qui crée un DataZone domaine Amazon est l'administrateur de domaine par défaut de ce domaine. Les administrateurs de domaine d'Amazon DataZone exécutent les fonctionnalités clés du domaine, notamment la création de domaines, l'affectation d'autres administrateurs de domaine, l'ajout de sources de données et de cibles d'abonnement, la création de projets et d'environnements et l'attribution de propriétaires de projets.

Editeur

Dans Amazon DataZone, les éditeurs publient des actifs dans le DataZone catalogue Amazon et peuvent modifier les métadonnées des actifs qu'ils publient. Si cette autorisation leur est accordée, les éditeurs peuvent approuver ou rejeter les demandes d'abonnement aux ressources qu'ils ont publiées dans le DataZone catalogue Amazon.

Subscriber

Dans Amazon DataZone, un abonné est un DataZone projet Amazon qui souhaite trouver, accéder et consommer des actifs du DataZone catalogue Amazon.

Compte AWS owner

Sur Amazon DataZone, Compte AWS les propriétaires créent des rôles, des politiques et des autorisations dans leur Comptes AWS qui les activent Comptes AWS à associer aux DataZone domaines Amazon.