AWS Marketplace 数据馈送的存储和结构 - AWS Marketplace

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Marketplace 数据馈送的存储和结构

AWS Marketplace 提供数据源作为一种机制,用于将结构化、 up-to-date产品和客户信息从 AWS Marketplace 系统发送到卖家 Amazon S3 存储桶,以便在卖家拥有的商业智能工具之间提取、转换和加载ETL(提取、转换和加载)。本主题提供有关数据馈送结构和存储的更多信息。

数据源收集以逗号分隔的值 (CSV) 文件并将其传送到您提供的加密 Amazon S3 存储桶。这些CSV文件具有以下特征:

  • 它们遵循 4180 标准

  • 不带BOM字符编码为 UTF -8。

  • 使用逗号作为值之间的分隔符。

  • 字段由双引号进行转义。

  • \n 是换行符。

  • 日期按UTC时区报告,采用 ISO 8601 日期和时间格式,并在 1 秒内精确。

  • 所有 *_period_start_date*_period_end_date 值都包括在内,这意味着 23:59:59 是任何一天的最后一个可能的时间戳。

  • 所有货币字段前面都有币种字段。

  • 货币字段使用句点 (.) 字符作为小数分隔符,不使用逗号 (,) 作为千位分隔符。

数据源的生成和存储方式如下:

  • 数据源在一天内生成,包含前一天 24 小时的数据。

  • 在 Amazon S3 存储桶中,数据源使用以下格式按月进行组织:

    bucket-name/data-feed-name_version/year=YYYY/month=MM/data.csv

  • 生成每个每日数据源时,会将其附加到该月的现有CSV文件中。当新的月份开始时,会为每个数据源生成一个新CSV文件。

  • 数据馈送中的信息从 2010/01/01 到 2020/04/30(含)进行回填,并且可以在子文件夹的文件中找到。CSV year=2010/month=01

    您可能会注意到本月的给定数据源文件仅包含列标题,而不包含数据的情况。这意味着该月该源没有新条目。对于更新频率较低的数据源(如产品源),可能会发生这种情况。在这些情况下,在回填文件夹中提供数据。

  • 在 Amazon S3 中,您可以创建 Amazon S3 生命周期策略来管理文件在存储桶中的保留时间。

  • 您可以将 Amazon 配置SNS为在数据传输到加密的 S3 存储桶时通知您。有关如何配置通知的信息,请参阅亚马逊简单通知服务开发者指南SNS中的亚马逊入门

数据历史记录

每个数据源都包含记录数据历史记录的列。除了 valid_to 之外,这些列对于所有数据源都是通用的。它们作为通用历史记录架构包含在内,并且在查询数据时非常有用。

列名称 描述
valid_from 主键值相对于其他字段的值有效的第一个日期。
valid_to 此列仅显示在地址数据源中,且始终为空。
insert_date 将记录插入数据源中的日期。
update_date 上次更新记录的日期。
delete_date 该列始终为空。

下面显示了这些列的示例。

valid_from valid_to insert_date update_date delete_date
2018-12-12T02:00:00Z 2018-12-12T02:00:00Z 2018-12-12T02:00:00Z
2019-03-29T03:00:00Z 2019-03-29T03:00:00Z 2019-03-29T03:00:00Z
2019-03-29T03:00:00Z 2019-03-29T03:00:00Z 2019-04-28T03:00:00Z

valid_fromupdate_date 字段共同构成了双时态数据模型valid_from 字段的名字会表明该项目何时有效。如果项目已被编辑,源中可以有多条记录,每条记录都有不同 update_date 和相同的 valid_from 日期。例如,要查找某项的当前值,可以从具有最新 valid_from 日期的记录列表中查找具有最新 update_date 的记录。

在上面的示例中,该记录最初创建于 2018-12-12。然后在 2019-03-29 进行了更改(例如,记录中的地址发生了变更)。后来,在 2019-04-28,地址变更得到了更正(所以 valid_from 没有改变,但 update_date 变了)。更正地址(罕见事件)会追溯更改原始 valid_from 日期的记录,因此该字段不会更改。查找最新 valid_from 的查询将返回两条记录,具有最新 update_date 的记录会给出实际的当前记录。