本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Marketplace 数据馈送的存储和结构
AWS Marketplace 提供数据源作为一种机制,用于将结构化、 up-to-date产品和客户信息从 AWS Marketplace 系统发送到卖家 Amazon S3 存储桶,以便在卖家拥有的商业智能工具之间提取、转换和加载ETL(提取、转换和加载)。本主题提供有关数据馈送结构和存储的更多信息。
数据源收集以逗号分隔的值 (CSV) 文件并将其传送到您提供的加密 Amazon S3 存储桶。这些CSV文件具有以下特征:
-
它们遵循 4180 标准
。 -
不带BOM字符编码为 UTF -8。
-
使用逗号作为值之间的分隔符。
-
字段由双引号进行转义。
-
\n
是换行符。 -
日期按UTC时区报告,采用 ISO 8601 日期和时间格式,并在 1 秒内精确。
-
所有
*_period_start_date
和*_period_end_date
值都包括在内,这意味着23:59:59
是任何一天的最后一个可能的时间戳。 -
所有货币字段前面都有币种字段。
-
货币字段使用句点 (
.
) 字符作为小数分隔符,不使用逗号 (,) 作为千位分隔符。
数据源的生成和存储方式如下:
-
数据源在一天内生成,包含前一天 24 小时的数据。
-
在 Amazon S3 存储桶中,数据源使用以下格式按月进行组织:
bucket-name
/data-feed-name_version
/year=YYYY
/month=MM
/data.csv -
生成每个每日数据源时,会将其附加到该月的现有CSV文件中。当新的月份开始时,会为每个数据源生成一个新CSV文件。
-
数据馈送中的信息从 2010/01/01 到 2020/04/30(含)进行回填,并且可以在子文件夹的文件中找到。CSV
year=2010/month=01
您可能会注意到本月的给定数据源文件仅包含列标题,而不包含数据的情况。这意味着该月该源没有新条目。对于更新频率较低的数据源(如产品源),可能会发生这种情况。在这些情况下,在回填文件夹中提供数据。
-
在 Amazon S3 中,您可以创建 Amazon S3 生命周期策略来管理文件在存储桶中的保留时间。
-
您可以将 Amazon 配置SNS为在数据传输到加密的 S3 存储桶时通知您。有关如何配置通知的信息,请参阅亚马逊简单通知服务开发者指南SNS中的亚马逊入门。
数据历史记录
每个数据源都包含记录数据历史记录的列。除了 valid_to
之外,这些列对于所有数据源都是通用的。它们作为通用历史记录架构包含在内,并且在查询数据时非常有用。
列名称 | 描述 |
---|---|
valid_from | 主键值相对于其他字段的值有效的第一个日期。 |
valid_to | 此列仅显示在地址数据源中,且始终为空。 |
insert_date | 将记录插入数据源中的日期。 |
update_date | 上次更新记录的日期。 |
delete_date | 该列始终为空。 |
下面显示了这些列的示例。
valid_from | valid_to | insert_date | update_date | delete_date |
---|---|---|---|---|
2018-12-12T02:00:00Z | 2018-12-12T02:00:00Z | 2018-12-12T02:00:00Z | ||
2019-03-29T03:00:00Z | 2019-03-29T03:00:00Z | 2019-03-29T03:00:00Z | ||
2019-03-29T03:00:00Z | 2019-03-29T03:00:00Z | 2019-04-28T03:00:00Z |
valid_from
和 update_date
字段共同构成了双时态数据模型。valid_from
字段的名字会表明该项目何时有效。如果项目已被编辑,源中可以有多条记录,每条记录都有不同 update_date
和相同的 valid_from
日期。例如,要查找某项的当前值,可以从具有最新 valid_from
日期的记录列表中查找具有最新 update_date
的记录。
在上面的示例中,该记录最初创建于 2018-12-12。然后在 2019-03-29 进行了更改(例如,记录中的地址发生了变更)。后来,在 2019-04-28,地址变更得到了更正(所以 valid_from
没有改变,但 update_date
变了)。更正地址(罕见事件)会追溯更改原始 valid_from
日期的记录,因此该字段不会更改。查找最新 valid_from
的查询将返回两条记录,具有最新 update_date
的记录会给出实际的当前记录。