Almacenamiento y estructura de las fuentes de AWS Marketplace datos - AWS Marketplace

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacenamiento y estructura de las fuentes de AWS Marketplace datos

AWS Marketplace proporciona fuentes de datos como un mecanismo para enviar información estructurada sobre up-to-date productos y clientes desde AWS Marketplace los sistemas a los buckets de Amazon S3 del vendedor para ETL (extraerla, transformarla y cargarla) entre herramientas de inteligencia empresarial propiedad del vendedor. En este tema se proporciona más información sobre la estructura y el almacenamiento de las fuentes de datos.

Las fuentes de datos recopilan y entregan archivos con valores (CSV) separados por comas a un depósito de Amazon S3 cifrado que usted proporciona. Los CSV archivos tienen las siguientes características:

  • Siguen los estándares 4180.

  • La codificación de caracteres es UTF -8 sin caracteresBOM.

  • Las comas se utilizan como separadores entre valores.

  • El carácter de escape de los campos son las comillas dobles.

  • \n es el carácter de salto de línea.

  • Las fechas se indican en la zona UTC horaria, tienen el formato de fecha y hora ISO 8601 y tienen una precisión de 1 segundo.

  • Todos los valores *_period_start_date y *_period_end_date son inclusivos, lo que significa que 23:59:59 es la última marca temporal posible de cualquier día.

  • Todos los campos monetarios van precedidos por un campo de moneda.

  • Los campos monetarios utilizan un carácter de punto (.) como separador decimal y no usan una coma (,) como separador de miles.

Las fuentes de datos se generan y almacenan de la siguiente manera:

  • Las fuentes de datos se generan en un día y contienen 24 horas de datos del día anterior.

  • En el bucket de Amazon S3, las fuentes de datos se organizan por mes con el siguiente formato:

    bucket-name/data-feed-name_version/year=YYYY/month=MM/data.csv

  • A medida que se genera cada fuente de datos diaria, se anexa al CSV archivo existente de ese mes. Cuando comienza un nuevo mes, se genera un CSV archivo nuevo para cada fuente de datos.

  • La información de las fuentes de datos se rellena del 01 de enero de 2010 al 30 de abril de 2020 (ambos inclusive) y está disponible en el archivo de la subcarpeta. CSV year=2010/month=01

    Puede observar casos en los que el archivo del mes actual de una fuente de datos determinada contiene solo encabezados de columna y no datos. Esto significa que no hubo entradas nuevas de ese mes para la fuente. Esto puede suceder con fuentes de datos que se actualizan con menos frecuencia, como la fuente de productos. En estos casos, los datos están disponibles en la carpeta rellenada.

  • En Amazon S3, puede crear una política de ciclo de vida de Amazon S3 para administrar el tiempo de mantenimiento de los archivos en el bucket.

  • Puedes configurar Amazon SNS para que te notifique cuando los datos se entreguen a tu bucket de S3 cifrado. Para obtener información sobre cómo configurar las notificaciones, consulte Introducción a Amazon SNS en la Guía para desarrolladores de Amazon Simple Notification Service.

Creación de un historial de los datos

Cada fuente de datos incluye columnas que documentan el historial de los datos. Excepto valid_to, estas columnas son comunes a todas las fuentes de datos. Se incluyen como un esquema de historial común y son útiles para consultar los datos.

Nombre de la columna Descripción
valid_from La primera fecha para la que es válido el valor de la clave principal en relación con los valores de otros campos.
valid_to Esta columna solo se muestra en la fuente de datos de dirección y siempre está en blanco.
insert_date La fecha en la que se insertó un registro en la fuente de datos.
update_date La fecha en la que se actualizó por última vez el registro.
delete_date Esta columna siempre está en blanco.

A continuación, se muestra un ejemplo de estas columnas.

valid_from valid_to insert_date update_date delete_date
2018-12-12T02:00:00Z 2018-12-12T02:00:00Z 2018-12-12T02:00:00Z
2019-03-29T03:00:00Z 2019-03-29T03:00:00Z 2019-03-29T03:00:00Z
2019-03-29T03:00:00Z 2019-03-29T03:00:00Z 2019-04-28T03:00:00Z

El campo valid_from y update_date en conjunto forman un modelo de datos bitemporal. El campo valid_from, como su propio nombre indica, señala desde qué fecha es válido el elemento. Si el elemento se ha editado, puede tener varios registros en la fuente, cada uno con una update_date diferente, pero con la misma fecha valid_from. Por ejemplo, para encontrar el valor actual de un elemento, debe buscar el registro con la update_date más reciente en la lista de registros con la fecha valid_from más reciente.

En el ejemplo anterior, el registro se creó originalmente el 12 de diciembre de 2018. A continuación, se modificó la dirección del registro el 29 de marzo de 2019. Más tarde, el 28 de abril de 2019, se corrigió el cambio de dirección (por lo que valid_from no cambió, pero la update_date sí). Si se corrige la dirección (algo poco frecuente), se modifica retroactivamente el registro con respecto a la fecha valid_from original, por lo que el campo no cambia. Una consulta para buscar la fecha valid_from más reciente devolverá dos registros; el que tenga la update_date más reciente mostrará el registro actual real.