替换数据集 - Amazon Forecast

Amazon Forecast 不再向新买家开放。Amazon Forecast 的现有客户可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

替换数据集

替换数据集是基准相关时间序列的修改版本,其中只包含要在假设分析预测中修改的值。替换数据集必须包含基准相关时间序列以及至少 1 个已修改时间序列中的预测维度、项目标识符和时间戳。此数据集会与基准相关时间序列合并,以创建假设分析预测使用的转换数据集。替换数据集必须采用 CSV 格式。

此数据集不应包含相同时间序列的重复时间戳。

下面几个示例说明了如何指定替换时间序列以及如何解释这些规范。考虑您每天进行预测的情况,预测范围是 2022-08-01 到 2022-08-03。下表列出了所有示例的基准相关时间序列。

item_id timestamp 价格 stock_count

item_1

2022-08-01

100

50

item_1

2022-08-02

100

50

item_1

2022-08-03

100

50

item_2

2022-08-01

75

500

item_2

2022-08-02

75

500

item_2

2022-08-03

75

500

Unchanged values

要为 2022-08-02 和 2022-08-03 的 item_1 应用 10% 的折扣,只需为替换数据集指定以下内容:

替换数据集
item_id timestamp 价格

item_1

2022-08-02

90

item_1

2022-08-03

90

但是,也可以在替换数据集中指定未修改的值。在以下三个表中的每个表都作为替换数据集使用时,将产生与先前所提供的表相同的结果。

列未修改的替换数据集
item_id timestamp 价格 stock_count

item_1

2022-08-02

90

50

item_1

2022-08-03

90

50

行未修改的替换数据集
item_id timestamp 价格

item_1

2022-08-01

100

item_1

2022-08-02

90

item_1

2022-08-03

90

item_2

2022-08-01

75

item_2

2022-08-02

75

item_2

2022-08-03

75

行和列都未修改的替换数据集
item_id timestamp 价格 stock_count

item_1

2022-08-01

100

50

item_1

2022-08-02

90

50

item_1

2022-08-03

90

50

item_2

2022-08-01

75

500

item_2

2022-08-02

75

500

item_2

2022-08-03

75

500

Missing values

替换时间序列中的缺失值将替换为基准相关时间序列中的值。考虑如下方案,即你为 2022-08-02 和 2022-08-03 的 item_1 应用 10% 的折扣,并在 2022-08-01 增加 item_2 的库存。此替换数据集完全足够:

有缺失值的替换数据集
item_id timestamp 价格 stock_count

item_1

2022-08-02

90

item_1

2022-08-03

90

item_2

2022-08-01

5000

此表中缺少的值是从基准相关时间序列中估算的值。

Extraneous values

在创建假设分析预测时,会忽略替换时间序列中的多余值。即不会对替换数据集中无基准相关时间序列对应值的值进行建模。考虑此替换数据集:

有多余值的替换数据集
item_id timestamp 价格 stock_count

item_1

2022-08-01

100

50

item_1

2022-08-02

100

50

item_1

2022-08-03

100

50

item_2

2022-08-01

75

500

item_2

2022-08-02

75

500

item_2

2022-08-03

75

500

item_3

2022-08-01

50

125

item_3

2022-08-02

50

125

item_3

2022-08-03

50

125

忽略包含 item_3 的行,并且此行不属于假设分析的一部分。

Historical changes

忽略替换数据集中超出预测范围的变更内容。考虑此替换数据集:

值超出预测范围的替换数据集
item_id timestamp 价格 stock_count

item_1

2022-07-31

100

50

item_1

2022-08-01

100

50

item_1

2022-08-02

100

50

item_1

2022-08-03

100

50

item_1

2022-08-04

100

50

item_2

2022-07-31

75

500

item_2

2022-08-01

75

500

item_2

2022-08-02

75

500

item_2

2022-08-03

75

500

item_3

2022-08-04

75

500

忽略包含 2022-07-31 和 2022-08-04 的行,这类行不属于假设分析的一部分。

预测维度

如果您的数据集包含预测维度,则此预测维度必须包含在替换数据集中。考虑此基准相关时间序列:

item_id store_id timestamp 价格 stock_count

item_1

store_1

2022-08-01

100

50

item_1

store_1

2022-08-02

100

50

item_1

store_1

2022-08-03

100

50

item_1

store_2

2022-08-01

75

500

item_1

store_2

2022-08-02

75

500

item_1

store_2

2022-08-03

75

500

因此,所有商店在 2022-08-02 提供 10% 折扣的替代数据集将如下所示:

item_id store_id timestamp 价格

item_1

store_1

2022-08-02

90

item_1

store_2

2022-08-02

67.5