使用项目元数据数据集 - Amazon Forecast

Amazon Forecast 不再向新买家开放。Amazon Forecast 的现有客户可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用项目元数据数据集

项目元数据数据集包含分类数据,分类数据可为目标时间序列数据集中的项目提供有价值的上下文。与相关的时间序列数据集不同,项目元数据数据集提供静态信息。也就是说,数据值随着时间推移保持不变,就像项目的颜色或品牌一样。项目元数据集是数据集组的可选补充。仅当目标时间序列数据集中的每个项目都存在于相应的项目元数据数据集中时,才能使用项目元数据。

项目元数据可能包括特定项目的品牌、颜色、型号、类别、原产地或其他补充功能。例如,项目元数据数据集可能为在目标时间序列数据集中找到的某些需求数据提供上下文,该数据集表示拥有 32 GB 存储空间的 Amazon 黑色电子阅读器的销量。由于这些特征与 day-to-day或没有变化 hour-to-hour,因此它们属于项目元数据集。

项目元数据对于在时间序列数据中发现和跟踪描述性模式非常有用。如果您在数据集组中包括项目元数据数据集,则 Forecast 可以训练模型,以便根据项目之间的相似性进行更准确的预测。例如,您可能发现 Amazon 生产的虚拟助理商品比其他公司制造的虚拟助理商品更有可能售出,然后相应地规划您的供应链。

项目元数据在冷启动预测方案中特别有用,在这种情况下,您没有历史数据可用于进行预测,但您对于有类似元数据属性的项目具有历史数据。项目元数据使 Forecast 能够利用与冷启动项目相似的项目来生成预测。

当您包括项目元数据时,Forecast 会根据相似的时间序列创建冷启动预测,从而创建更准确的预测。冷启动预测是针对在项目元数据数据集中但不在结尾时间序列中的项目生成的。首先,Forecast 会为非冷启动项目生成预测,非冷启动项目是指在结尾时间序列中有历史数据的项目。接下来,对于每个冷启动项目,使用项目元数据数据集找到其最临近的项目。然后,使用这些最临近的项目来创建冷启动预测。

项目元数据数据集中的每一行最多可包含 10 个元数据字段,其中一个字段必须是标识字段,才能将元数据与目标时间序列中的项目匹配。与所有数据集类型一样,每个字段的值由数据集架构指定。

Python 笔记本

有关使用项目元数据的 step-by-step指南,请参阅合并项目元数据

示例:项目元数据文件和架构

下表显示了描述 Amazon 电子阅读器经过正确配置的项目元数据数据集文件的一部分。对于此示例,假定标题行表示数据集的架构,并且每个列出的项目都位于相应的目标时间序列数据集中。

item_id brand model color waterproof
1 amazon paperwhite black
2 amazon paperwhite blue
3 amazon base_model black
4 amazon base_model white
...

以下是以CSV格式表示的信息。

1,amazon,paperwhite,black,yes 2,amazon,paperwhite,blue,yes 3,amazon,base_model,black,no 4,amazon,base_model,white,no ...

以下是此示例数据集的架构。

{ "attributes": [ { "AttributeName": "item_id", "AttributeType": "string" }, { "AttributeName": "brand", "AttributeType": "string" }, { "AttributeName": "model", "AttributeType": "string" }, { "AttributeName": "color", "AttributeType": "string" }, { "AttributeName": "waterproof", "AttributeType": "string" } ] }

传统预测器和项目元数据

注意

要将现有预测变量升级到 AutoPredictor,请参见 正在升级到 AutoPredictor

使用传统预测变量时,可以在使用 CNN-Q R 或 Deepar+ 算法训练预测变量时使用项目元数据。使用 AutoML 时,您可以提供项目元数据,而 Forecast 将仅在适用的情况下使用这些时间序列。

另请参阅

要深入了解如何使用商品元数据集,请参阅在 Amazon Forecast 样本 GitHub 存储库中将商品元数据集合并到您的预测变量中。