Données en AWS Data Exchange - AWS Data Exchange Guide de l'utilisateur

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Données en AWS Data Exchange

Les données sont organisées à AWS Data Exchange l'aide de trois éléments de base :

Ces trois éléments de base constituent la base du produit que vous gérez à l'aide de la AWS Data Exchange console ou de l' AWS Data Exchange API.

Pour créer, afficher, mettre à jour ou supprimer des ensembles de données, vous pouvez utiliser la AWS Data Exchange console, le AWS Command Line Interface (AWS CLI), votre propre client REST ou l'un des AWS SDK. Pour plus d'informations sur la gestion programmatique des ensembles de AWS Data Exchange données, consultez la référence des AWS Data Exchange API.

Assets

Les actifs sont les données saisies AWS Data Exchange.

Le type de ressource définit la manière dont les données sont transmises au destinataire ou à l'abonné par le biais des ensembles de données, des autorisations de données ou des produits qui les contiennent.

Un actif peut être l'un des éléments suivants :

  • Un fichier stocké sur votre ordinateur local

  • Un fichier stocké sous forme d'objet dans Amazon Simple Storage Service (Amazon S3)

  • Une API REST créée dans Amazon API Gateway

  • Un ensemble de données Amazon Redshift

  • Une autorisation AWS Lake Formation de données (aperçu)

  • Un ensemble de données d'accès aux données Amazon S3

Structure des assets

Les actifs ont les paramètres suivants :

  • DataSetId— L'ID de l'ensemble de données contenant cette ressource.

  • RevisionId— L'ID de la révision qui contient cette ressource.

  • Id— Un identifiant unique généré lors de la création de l'actif.

  • Arn— Identifiant unique pour le nom d'une AWS ressource.

  • CreatedAtet UpdatedAt — Date et horodatage de la création et de la dernière mise à jour de la ressource.

  • AssetDetails— Informations sur l'actif.

  • AssetType— Il s'agit d'un instantané d'un objet Amazon S3, d'une API Amazon API Gateway, d'un ensemble de données Amazon Redshift ou d'un ensemble de données Amazon S3.

Exemple ressource d'actifs
{ "Name": "automation/cloudformation.yaml", "Arn": "arn:aws:dataexchange:us-east-1::data-sets/29EXAMPLE24b82c6858af3cEXAMPLEcf/revisions/bbEXAMPLE74c02f4745c660EXAMPLE20/assets/baEXAMPLE660c9fe7267966EXAMPLEf5", "Id": "baEXAMPLE660c9fe7267966EXAMPLEf5", "CreatedAt": "2019-10-17T21:31:29.833Z", "UpdatedAt": "2019-10-17T21:31:29.833Z", "AssetType": "S3_SNAPSHOT", "RevisionId": "bbEXAMPLE74c02f4745c660EXAMPLE20", "DataSetId": "29EXAMPLE24b82c6858af3cEXAMPLEcf", "AssetDetails": { "S3SnapshotAsset": { "Size": 9423 } } }

Types d'actifs

Ensemble de données de fichiers

À l'aide de fichiers, les abonnés peuvent accéder à une copie de l'ensemble de données en tant qu'ensemble de données intitulé et exporter les actifs.

Le propriétaire d'un ensemble de données peut à la fois importer et exporter des fichiers à l'aide de la AWS Data Exchange console AWS CLI, par le biais de sa propre application REST ou de l' AWS un des SDK. Pour plus d'informations sur l'importation d'actifs Amazon S3, consultez. Importation de ressources depuis un compartiment S3 Pour plus d'informations sur l'exportation de ressources, consultezExportation de ressources vers un compartiment S3.

Ressources de l'API

Avec les actifs d'API, les destinataires des données ou les abonnés peuvent consulter l'API et télécharger la spécification de l'API sous la forme d'un ensemble de données intitulé. Vous pouvez également effectuer des appels d'API vers des points de AWS Data Exchange terminaison gérés, qui sont ensuite transmis par proxy aux points de terminaison propriétaires de l'API.

Le propriétaire d'un ensemble de données disposant d'une API Amazon API Gateway existante peut ajouter une ressource d'API à l'aide de la AWS Data Exchange console, par programmation via le AWS CLI ou l' AWS un des SDK. Pour plus d'informations sur l'importation de ressources d'API, consultezImportation d'actifs depuis une API Amazon API Gateway.

Note

Actuellement, l'SendApiAssetopération n'est pas prise en charge pour les SDK suivants :

  • AWS SDK for .NET

  • AWS SDK for C++

  • SDK pour Java 2.x

Les propriétaires d'ensembles de données qui ne possèdent pas d'API Amazon API Gateway existante doivent en créer une avant d'ajouter une ressource d'API à leur produit. Pour plus d'informations, consultez la section Développement d'une API REST dans API Gateway dans le manuel Amazon API Gateway Developer Guide.

Ressources de partage de données Amazon Redshift

Avec les ressources de partage de données Amazon Redshift, les destinataires peuvent obtenir un accès en lecture seule pour interroger les données dans Amazon Redshift sans extraire, transformer ni charger de données.

Pour plus d'informations sur l'importation de ressources de partage de données Amazon Redshift, consultez. Importation de ressources depuis un partage de AWS Data Exchange données pour Amazon Redshift

AWS Lake Formation autorisation des données (aperçu)

Grâce aux actifs d'autorisation de AWS Lake Formation données, les destinataires ou les abonnés peuvent accéder à toutes les bases de données, tables ou colonnes associées aux balises spécifiées et les interroger.

Les propriétaires d'ensembles de données doivent créer et étiqueter leurs données avant d'importer les balises dans le cadre d'une AWS Data Exchange ressource. Pour plus d'informations sur l'importation des actifs d'autorisation relatifs aux données de Lake Formation, consultezImportation de ressources depuis AWS Lake Formation (version préliminaire).

Accès aux données Amazon S3

Grâce aux ressources d'accès aux données d'Amazon S3, les destinataires ou les abonnés peuvent accéder directement aux données du fournisseur et les utiliser sans créer ni gérer de copies de données. Les propriétaires d'ensembles de données peuvent configurer Amazon S3 en plus de leurs compartiments Amazon S3 existants AWS Data Exchange pour partager l'accès direct à un compartiment S3 complet ou à des préfixes spécifiques et à des objets Amazon S3.

Révisions

Une révision est un conteneur pour un ou plusieurs actifs.

Vous utilisez les révisions pour mettre à jour les données dans Amazon S3. Par exemple, vous pouvez regrouper une collection de fichiers .csv ou un seul fichier .csv et un dictionnaire pour créer une révision. Au fur et à mesure que de nouvelles données sont disponibles, vous créez des révisions et ajoutez des actifs. Une fois que vous avez créé et finalisé la révision à l'aide de la AWS Data Exchange console, cette révision sera immédiatement disponible pour les abonnés. Pour plus d’informations, consultez Publier un nouveau produit.

Gardez à l'esprit les points suivants :

  • Pour être finalisée, une révision doit contenir au moins un actif.

  • Il est de votre responsabilité de vous assurer que les ressources sont correctes avant de finaliser votre révision.

  • Une révision finalisée publiée pour au moins une subvention de données ou un produit ne peut en aucun cas être définalisée ou modifiée. (Sauf dans le cadre du processus de révocation de révision)

  • Une fois la révision finalisée, elle est automatiquement publiée dans vos licences de données ou vos produits.

Structure de révision

Les révisions ont les paramètres suivants :

  • DataSetId— L'ID de l'ensemble de données contenant cette révision.

  • Comment— Un commentaire à propos de la révision. Ce champ peut comporter 128 caractères.

  • Finalized— Vrai ou faux. Utilisé pour indiquer si la révision est finalisée.

  • Id— L'identifiant unique de la révision générée lors de sa création.

  • Arn— Identifiant unique pour le nom d'une AWS ressource.

  • CreatedAt— Date et horodatage de création de la révision. Les révisions intitulées sont créées au moment de la publication.

  • UpdatedAt— Date et horodatage de la dernière mise à jour de la révision.

  • Revoked— Un statut indiquant que l'accès des abonnés à la révision a été révoqué.

  • RevokedAt— Date et horodatage indiquant à quel moment l'accès de l'abonné à la révision a été révoqué.

  • RevocationComment— Un commentaire obligatoire pour informer les abonnés de la raison pour laquelle leur accès à la révision a été révoqué. La longueur de caractères minimale requise est de 10. Ce champ peut comporter entre 10 et 512 caractères.

  • SourceID— L'ID de révision de la révision détenue correspondant à la révision intitulée en cours de consultation. Ce paramètre est renvoyé lorsqu'un propriétaire de révision consulte la copie autorisée de la révision qu'il possède.

Exemple ressource de révision
{ "UpdatedAt": "2019-10-11T14:13:31.749Z", "DataSetId": "1EXAMPLE404460dc9b005a0d9EXAMPLE2f", "Comment": "initial data revision", "Finalized": true, "Id": "e5EXAMPLE224f879066f9999EXAMPLE42", "Arn": "arn:aws:dataexchange:us-east-1:123456789012:data-sets/1EXAMPLE404460dc9b005a0d9EXAMPLE2f/revisions/e5EXAMPLE224f879066f9999EXAMPLE42", "CreatedAt": "2019-10-11T14:11:58.064Z" }

Ensembles de données

Un ensemble de données AWS Data Exchange est un ensemble de données qui peut changer au fil du temps.

Lorsque les destinataires ou les abonnés accèdent à un ensemble de données de fichiers, ils accèdent à une révision spécifique de l'ensemble de données. Cette structure permet aux fournisseurs de modifier les données disponibles dans les ensembles de données au fil du temps sans avoir à se soucier des modifications des données historiques.

Lorsque les destinataires ou les abonnés accèdent à un ensemble de données d'API, ils accèdent à un ensemble de données contenant des actifs d'API, qui permettent aux abonnés d'effectuer des appels d'API vers des points de AWS Data Exchange terminaison gérés, qui sont ensuite transmis par proxy aux points de terminaison du fournisseur.

Lorsque les destinataires ou les abonnés accèdent à un ensemble de données Amazon Redshift, ils accèdent à un partage de AWS Data Exchange données pour Amazon Redshift. Ce partage de données donne aux abonnés un accès en lecture seule aux schémas, tables, vues et fonctions définies par l'utilisateur que le propriétaire des données a ajoutés aux partages de données.

Lorsque les destinataires ou les abonnés accèdent à un AWS Lake Formation ensemble de données d'autorisation de données, ils accèdent aux bases de données, aux tables et/ou aux colonnes marquées d'une balise LF spécifiée par le propriétaire de l'ensemble de données.

Lorsque les destinataires ou les abonnés accèdent à un ensemble de données d'accès aux données Amazon S3, ils obtiennent un accès en lecture seule aux objets Amazon S3 partagés hébergés dans les compartiments Amazon S3 du fournisseur. Les destinataires ou les abonnés peuvent utiliser ces données directement avec d'autres Services AWS.

Pour créer, afficher, mettre à jour ou supprimer des ensembles de données, les fournisseurs peuvent utiliser la AWS Data Exchange console, la AWS CLI, votre propre client REST ou l'un des AWS SDK. Pour plus d'informations sur la gestion programmatique des ensembles de AWS Data Exchange données, consultez la référence des AWS Data Exchange API.

Ensembles de données détenus

Un ensemble de données appartient au compte qui l'a créé. Les ensembles de données détenus peuvent être identifiés à l'aide du origin paramètre, qui est défini surOWNED.

Ensembles de données autorisés

Les ensembles de données autorisés sont une vue en lecture seule des ensembles de données appartenant à l'expéditeur. Les ensembles de données autorisés sont créés au moment de la création de la subvention de données ou de la publication du produit et sont mis à la disposition des destinataires ou des abonnés qui ont une subvention de données active ou un abonnement au produit. Les ensembles de données autorisés peuvent être identifiés à l'aide du origin paramètre, qui est défini surENTITLED.

En tant que destinataire, vous pouvez consulter et interagir avec les ensembles de données autorisés à l'aide de l' AWS Data Exchange API ou de la AWS Data Exchange console.

En tant que propriétaire d'un ensemble de données, vous avez également accès à la vue d'ensemble de données autorisée que voient vos destinataires ou abonnés. Vous pouvez le faire à l'aide de l' AWS Data Exchange API ou en choisissant le nom du jeu de données dans la page de licence ou de produit de la AWS Data Exchange console.

Types d'ensembles de données

Les types d'ensembles de données suivants sont pris en charge dans AWS Data Exchange :

Ensemble de données de fichiers

Un ensemble de données Files est un ensemble de données qui contient des fichiers plats autorisés par Amazon S3.

En tant que destinataire ou abonné, vous pouvez exporter les données localement (téléchargement sur votre ordinateur) ou vers votre compartiment Amazon S3.

En tant que propriétaire d'un ensemble de données, vous pouvez importer n'importe quel type de fichier plat depuis votre compartiment Amazon S3 et l'ajouter à l'ensemble de données.

Ensemble de données API

Un ensemble de données d'API est un ensemble de données qui contient des actifs d'API. Les actifs d'API permettent aux destinataires ou aux abonnés d'effectuer des appels d'API vers des points de AWS Data Exchange terminaison gérés, qui sont ensuite transmis par proxy aux points de terminaison du propriétaire de l'ensemble de données.

En tant que propriétaire d'un ensemble de données, vous créez une API dans Amazon API Gateway et vous l'ajoutez à l'ensemble de données pour autoriser l'accès à votre API lors de la création d'une autorisation de données ou d'un abonnement.

Ensemble de données Amazon Redshift

Un ensemble de données Amazon Redshift inclut des partages de AWS Data Exchange données pour Amazon Redshift. Lorsque vous vous abonnez à un ensemble de données avec des partages de données, vous êtes ajouté en tant que consommateur du partage de données. Cela vous donne un accès en lecture seule aux schémas, tables, vues et fonctions définies par l'utilisateur que le propriétaire du jeu de données a ajoutés aux partages de données.

En tant que propriétaire d'un ensemble de données, vous pouvez créer une base de données à partir du partage de données dans Amazon Redshift, puis interroger des données en temps réel sans extraire, transformer ni charger de fichiers. L'accès au partage de données vous est automatiquement accordé lorsque votre autorisation de données ou votre abonnement est activé et vous perdez l'accès après l'expiration de l'un ou l'autre de ces éléments.

En tant que propriétaire d'un ensemble de données, vous créez un partage de données dans Amazon Redshift et vous l'ajoutez à l'ensemble de données pour autoriser l'accès à votre partage de données lors de la création d'une licence de données ou lors de l'abonnement.

Ensemble de données d'accès aux données Amazon S3

Grâce à AWS Data Exchange l'accès aux données Amazon S3, les destinataires des données ou les abonnés peuvent accéder à des fichiers de données tiers directement à partir des compartiments Amazon S3 des propriétaires d'ensembles de données.

Lorsque vous vous abonnez à un produit d'accès aux données AWS Data Exchange pour Amazon S3, procédez AWS Data Exchange automatiquement comme suit :

  • Provisionne un point d'accès Amazon S3. Le point d'accès Amazon S3 est une fonctionnalité d'Amazon S3 qui simplifie le partage de données vers un compartiment Amazon S3.

  • Met à jour les politiques de ressources du point d'accès S3 pour vous accorder un accès en lecture seule.

Avec Amazon S3, AWS Data Exchange les propriétaires d'ensembles de données peuvent partager un accès direct à l'intégralité d'un compartiment Amazon S3 ou à des préfixes et à des objets Amazon S3 spécifiques. En outre, il AWS Data Exchange peut être utilisé pour gérer automatiquement les autorisations de données, les abonnements, les droits, la facturation et les paiements.

AWS Lake Formation ensemble de données (aperçu)

Un ensemble AWS Lake Formation de données est un ensemble de données qui contient des actifs d'autorisation de AWS Lake Formation données.

En tant que destinataire des données ou abonné, vous pouvez gérer les données mises à votre disposition dans votre AWS Lake Formation. Après avoir créé des liens vers des ressources dans votre AWS Lake Formation, vous pouvez interroger les données à l'aide de services d'analyse tels qu'Amazon Athena.

En tant que propriétaire d'un ensemble de données, vous balisez vos données à l'aide de balises LF AWS Lake Formation et vous importez ces balises en tant que ressources lors de la création de votre ensemble de données.

Régions AWS et ensembles de données

Vos ensembles de données peuvent figurer dans n'importe quel support Région AWS, mais tous les ensembles de données d'une même subvention de données ou d'un même produit doivent figurer dans le même document Région AWS.

Structure de l'ensemble de données

Les ensembles de données possèdent les paramètres suivants :

  • Name— Nom de l'ensemble de données. Cette valeur peut comporter jusqu'à 256 caractères.

  • Description— Description de l'ensemble de données. Cette valeur peut comporter jusqu'à 16 348 caractères.

  • AssetType— Définit le type d'actifs que contient l'ensemble de données.

  • Origin— Une propriété qui définit l'ensemble de données Owned en fonction du compte (pour les fournisseurs) ou Entitled du compte (pour les abonnés).

  • Id— Un identifiant identifiant de manière unique l'ensemble de données. Les identifiants d'ensemble de données sont générés lors de la création de l'ensemble de données. Les ensembles de données autorisés ont un identifiant différent de celui du jeu de données possédé d'origine.

  • Arn— Identifiant unique pour le nom d'une AWS ressource.

  • CreatedAtet UpdatedAt — Date et horodatage de la création et de la dernière mise à jour de l'ensemble de données.

Note

En tant que propriétaire d'un ensemble de données, vous pouvez modifier certaines propriétés des ensembles de données détenus, comme le nom ou la description. La mise à jour des propriétés d'un ensemble de données possédé ne mettra pas à jour les propriétés du jeu de données intitulé correspondant.

Exemple ressource d'ensemble de données
{ "Origin": "OWNED", "AssetType": "S3_SNAPSHOT", "Name": "MyDataSetName", "CreatedAt": "2019-09-09T19:31:49.704Z", "UpdatedAt": "2019-09-09T19:31:49.704Z", "Id": "fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Arn": "arn:aws:dataexchange:us-east-2:123456789109:data-sets/fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Description": "This is my data set's description that describes the contents of the data set." }

Bonnes pratiques relatives aux ensembles de données

En tant que propriétaire d'un ensemble de données, lorsque vous créez et mettez à jour des ensembles de données, tenez compte des meilleures pratiques suivantes :

  • Le nom de l'ensemble de données est visible dans la licence de données ou dans les détails du produit dans le catalogue. Nous vous recommandons de choisir un nom concis et descriptif afin que les clients comprennent facilement le contenu de l'ensemble de données.

  • La description est visible pour les destinataires ou les abonnés qui ont une licence de données active ou un abonnement au produit. Nous vous recommandons d'inclure les informations de couverture ainsi que les fonctionnalités et avantages de l'ensemble de données.

Balises

Vous pouvez ajouter des balises à vos propres ensembles de données et à leurs révisions. Lorsque vous utilisez le balisage, vous pouvez également utiliser le contrôle d'accès basé sur les balises dans les politiques AWS Identity and Access Management (IAM) pour contrôler l'accès à ces ensembles de données et à ces révisions.

Les ensembles de données autorisés ne peuvent pas être balisés. Les balises des ensembles de données détenus et leurs révisions ne sont pas propagées vers leurs versions intitulées correspondantes. Plus précisément, les destinataires ou les abonnés, qui ont un accès en lecture seule aux ensembles de données et aux révisions autorisés, ne verront pas les balises de l'ensemble de données appartenant à l'origine.

Note

À l'heure actuelle, les actifs et les tâches ne sont pas compatibles avec le balisage.