Archiviazione e struttura dei feed di Marketplace AWS dati - Marketplace AWS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Archiviazione e struttura dei feed di Marketplace AWS dati

Marketplace AWS fornisce feed di dati come meccanismo per inviare informazioni strutturate sui up-to-date prodotti e sui clienti dai Marketplace AWS sistemi ai bucket Amazon S3 del venditore ETL per (estrazione, trasformazione e caricamento) tra strumenti di business intelligence di proprietà del venditore. Questo argomento fornisce ulteriori informazioni sulla struttura e l'archiviazione dei feed di dati.

I feed di dati raccolgono e distribuiscono file con valori separati da virgole (CSV) a un bucket Amazon S3 crittografato fornito da te. I CSV file hanno le seguenti caratteristiche:

  • Seguono gli standard 4180.

  • La codifica dei caratteri è UTF -8 senza. BOM

  • Le virgole vengono utilizzate come separatori tra i valori.

  • I campi sono separati da virgolette doppie.

  • \nè il carattere di alimentazione della riga.

  • Le date sono riportate nel fuso UTC orario, sono nel formato di data e ora ISO 8601 e sono accurate entro 1 secondo.

  • Tutti *_period_start_date i *_period_end_date valori sono comprensivi, il che significa che 23:59:59 si tratta dell'ultimo timestamp possibile per ogni giorno.

  • Tutti i campi monetari sono preceduti da un campo di valuta.

  • I campi monetari utilizzano un punto (.) come separatore decimale e non utilizzano una virgola (,) come separatore delle migliaia.

I feed di dati vengono generati e archiviati come segue:

  • I data feed vengono generati entro un giorno e contengono 24 ore di dati del giorno precedente.

  • Nel bucket Amazon S3, i feed di dati sono organizzati per mese utilizzando il seguente formato:

    bucket-name/data-feed-name_version/year=YYYY/month=MM/data.csv

  • Man mano che viene generato, ogni feed di dati giornaliero viene aggiunto al CSV file esistente per quel mese. All'inizio di un nuovo mese, viene generato un nuovo CSV file per ogni data feed.

  • Le informazioni nei feed di dati vengono compilate dal 01/01/2010 al 30/04/2020 (incluso) e sono disponibili nel file nella sottocartella. CSV year=2010/month=01

    Potresti notare casi in cui il file del mese corrente per un determinato feed di dati contiene solo intestazioni di colonna e nessun dato. Ciò significa che non sono state inserite nuove voci per quel mese nel feed. Questo può accadere con feed di dati che vengono aggiornati meno frequentemente, come il feed del prodotto. In questi casi, i dati sono disponibili nella cartella riempita.

  • In Amazon S3, puoi creare una policy sul ciclo di vita di Amazon S3 per gestire il periodo di conservazione dei file nel bucket.

  • Puoi configurare Amazon in modo che SNS ti avvisi quando i dati vengono consegnati al tuo bucket S3 crittografato. Per informazioni su come configurare le notifiche, consulta Getting started with Amazon SNS nella Amazon Simple Notification Service Developer Guide.

Storizzazione dei dati

Ogni data feed include colonne che documentano la cronologia dei dati. Ad eccezione divalid_to, queste colonne sono comuni a tutti i feed di dati. Sono incluse come schema cronologico comune e sono utili per interrogare i dati.

Nome colonna Descrizione
valid_from La prima data in cui il valore della chiave primaria è valido rispetto ai valori degli altri campi.
valid_to Questa colonna viene visualizzata solo nel feed di dati degli indirizzi ed è sempre vuota.
insert_date La data in cui un record è stato inserito nel data feed.
update_date Data dell'ultimo aggiornamento del record.
delete_date Questa colonna è sempre vuota.

Di seguito viene illustrato un esempio di queste colonne.

valid_from valido_a data_di inserimento data_aggiornamento data_eliminazione
2018-12-12H 02:00:00 Z 2018-12-12H 02:00:00 Z 2018-12-12H 02:00:00 Z
2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z
2019-03-29T 03:00:00 Z 2019-03-29T 03:00:00 Z 2019-04-28T 03:00:00 Z

Il update_date campo valid_from e insieme formano un modello di dati bi-temporale. Il valid_from campo, così com'è denominato, indica da quando l'elemento è valido. Se l'elemento è stato modificato, può avere più record nel feed, ognuno con una valid_from data diversa update_date ma con la stessa. Ad esempio, per trovare il valore corrente di un elemento, dovresti trovare il record con la data più recenteupdate_date, dall'elenco dei record con la valid_from data più recente.

Nell'esempio precedente, il record è stato originariamente creato il 12/12/2018. È stato quindi modificato il 29-03-2019 (ad esempio, se l'indirizzo nel record è cambiato). Successivamente, il 28/04/2019, il cambio di indirizzo è stato corretto (quindi non è cambiato, valid_from ma l'ha fatto). update_date La correzione dell'indirizzo (un evento raro) modifica retroattivamente il record rispetto alla valid_from data originale, quindi quel campo non è cambiato. Una query per trovare il record più recente valid_from restituirebbe due record, mentre quello con l'ultimo update_date fornisce il record corrente effettivo.