Stockage et structure des flux de AWS Marketplace données - AWS Marketplace

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Stockage et structure des flux de AWS Marketplace données

AWS Marketplace fournit des flux de données en tant que mécanisme permettant d'envoyer des informations structurées sur les up-to-date produits et les clients des AWS Marketplace systèmes aux compartiments Amazon S3 du vendeur pour ETL (extraction, transformation et chargement) entre des outils de business intelligence appartenant au vendeur. Cette rubrique fournit des informations supplémentaires sur la structure et le stockage des flux de données.

Les flux de données collectent et transmettent des fichiers de valeurs (CSV) séparés par des virgules à un compartiment Amazon S3 chiffré que vous fournissez. Les CSV fichiers présentent les caractéristiques suivantes :

  • Ils suivent les normes 4180.

  • Le codage des caractères est UTF -8 sansBOM.

  • Les virgules sont utilisées comme séparateurs entre les valeurs.

  • L'échappement des champs s'effectue à l'aide de guillemets doubles.

  • \n est le caractère de saut de ligne.

  • Les dates sont indiquées dans le UTC fuseau horaire, sont au format ISO 8601 et sont exactes en moins d'une seconde.

  • Toutes les valeurs *_period_start_date et *_period_end_date sont inclusives, ce qui signifie que 23:59:59 est le dernier horodatage possible pour n'importe quel jour.

  • Tous les champs monétaires sont précédés d'un champ de devise.

  • Les champs monétaires utilisent un caractère point (.) comme séparateur décimal et n'utilisent pas de virgule (,) comme séparateur des milliers.

Les flux de données sont générés et stockés comme suit :

  • Les flux de données sont générés en un jour et contiennent 24 heures de données de la veille.

  • Dans le compartiment Amazon S3, les flux de données sont organisés par mois selon le format suivant :

    bucket-name/data-feed-name_version/year=YYYY/month=MM/data.csv

  • Au fur et à mesure que chaque flux de données quotidien est généré, il est ajouté au CSV fichier existant pour le mois en question. Lorsqu'un nouveau mois commence, un nouveau CSV fichier est généré pour chaque flux de données.

  • Les informations contenues dans les flux de données sont complétées du 01/01/2010 au 30/04/2020 (inclus) et sont disponibles dans le fichier du CSV sous-dossier. year=2010/month=01

    Vous remarquerez peut-être des cas où le fichier du mois en cours pour un flux de données donné ne contient que des en-têtes de colonne et aucune donnée. Cela signifie qu'il n'y avait pas de nouvelles entrées pour ce mois pour le flux. Cela peut se produire avec des flux de données qui sont mis à jour moins fréquemment, comme le flux de produits. Dans ces cas, les données sont disponibles dans le dossier rempli.

  • Dans Amazon S3, vous pouvez créer une politique de cycle de vie Amazon S3 pour gérer la durée de conservation des fichiers dans le compartiment.

  • Vous pouvez configurer Amazon SNS pour qu'il vous avertisse lorsque des données sont livrées à votre compartiment S3 chiffré. Pour plus d'informations sur la configuration des notifications, consultez Getting started with Amazon SNS dans le manuel Amazon Simple Notification Service Developer Guide.

Historisation des données

Chaque flux de données comprend des colonnes qui documentent l'historique des données. Sauf pour valid_to, ces colonnes sont communes à tous les flux de données. Elles sont incluses en tant que schéma d'historique commun et sont utiles pour interroger les données.

Nom de la colonne Description
valid_from Première date pour laquelle la valeur de la clé primaire est valide par rapport aux valeurs des autres champs.
valid_to Cette colonne est uniquement affichée dans le flux de données Adresse et elle est toujours vide.
insert_date Date à laquelle un enregistrement a été inséré dans le flux de données.
update_date Date de la dernière mise à jour de l'enregistrement.
delete_date Cette colonne est toujours vide.

Voici un exemple de ces colonnes.

valid_from valid_to insert_date update_date delete_date
2018-12-12T 02:00:00 Z 2018-12-12T 02:00:00 Z 2018-12-12T 02:00:00 Z
2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z
2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z 2019-04-28 03:00:00 Z

Les update_date champs valid_from et forment ensemble un modèle de données bi-temporel. Le valid_from champ, tel qu'il est nommé, vous indique à partir de quel moment l'article est valide. Si l'élément a été modifié, il peut contenir plusieurs enregistrements dans le flux, chacun portant une valid_from date différente update_date mais identique. Par exemple, pour trouver la valeur actuelle d'un élément, vous devez rechercher l'enregistrement le plus récent update_date dans la liste des enregistrements contenant la valid_from date la plus récente.

Dans l'exemple ci-dessus, l'enregistrement a été créé à l'origine le 12/2018. Elle a ensuite été modifiée le 29/03/2019 (par exemple, si l'adresse figurant dans le dossier a changé). Plus tard, le 28/04/2019, le changement d'adresse a été corrigé (il valid_from n'a donc pas changé, mais il l'update_datea fait). La correction de l'adresse (un événement rare) modifie rétroactivement l'enregistrement par rapport à la valid_from date d'origine, de sorte que le champ n'a pas changé. Une requête visant à trouver le plus récent valid_from renverrait deux enregistrements, celui contenant le plus récent update_date indique l'enregistrement actuel.