本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
物品数据集要求(ECOMMERCE 域)
物品数据集 存储有关 ECOMMERCE 物品的元数据。这可能包括每件物品的价格、类别和产品描述等信息。有关您可以导入 Amazon Personalize 的物品数据类型的更多信息,请参阅物品元数据。有关 Amazon Personalize 架构的一般要求(例如格式设置要求和可用的字段数据类型)的信息,请参阅为 Amazon Personalize 架构创建架构 JSON 文件。这些要求适用于所有架构,不论域如何。
对于所有 ECOMMERCE 使用案例,物品数据集都是可选的。如果您有物品数据,我们建议您创建一个物品数据集,以获得最相关的建议。如果您创建物品数据集,则架构必须包含以下字段:
-
ITEM_ID
-
PRICE (
float
) -
CATEGORY_L1(分类
string
)
您的架构还可以包含以下保留关键字。对于分类字段,您可以根据自己的使用案例定义自己的值范围。
CATEGORY_L2(分类
string
、null
)CATEGORY_L3(分类
string
、null
)PRODUCT_DESCRIPTION(文本
string
、null
)CREATION_TIMESTAMP (
float
)AGE_GROUP(分类
string
、null
):物品所针对的年龄组。值可能是新生儿、婴儿、儿童和成人。ADULT(分类
string
、null
):物品是否仅限成人,例如酒精饮料。值可能为是或否。GENDER(分类
string
、null
):物品所针对的性别。值可以是男性、女性和男女皆宜。
为了获得最佳建议,我们建议您在架构中尽可能多保留这些字段,因为您拥有数据。您导入的数据必须与您的架构相匹配。您导入的数据必须与您的架构相匹配。最大元数据列数为 100。您可以根据您的使用案例和数据自由添加其他字段。只要字段未列为必填字段或保留字段,并且数据类型列在架构数据类型中,则字段名称和数据类型由您决定。
对于具有多个多级类别的物品,使用保留关键字 CATEGORY_L2 和 CATEGORY_L3。有关更多信息,请参阅 使用分类数据。有关文本和分类元数据的信息,请参阅非结构化文本元数据。有关 ECOMMERCE 域物品数据集的默认架构示例,请参阅默认物品架构(ECOMMERCE 域)。
使用分类数据
要使用分类数据,请添加类型为 string
的字段,并在架构中将该字段的类别属性设置为 true
。然后,将分类数据包含在批量 CSV 文件和单个物品导入中。您可以基于自己的使用案例来定义自己的值范围。分类值最多可以有 1000 个字符。如果您的物品的分类值超过 1000 个字符,则您的数据集导入作业将失败。
对于具有多个类别的物品,使用竖线“|”分隔每个值。例如,对于 CATEGORY_L1 字段,您的物品数据可能是 Electronics|Productivity|Mouse
。如果您有多个级别的分类数据,并且某些物品在层次结构中的每个级别都有多个类别,请为每个级别添加一个字段,并在每个字段名称后面附加一个级别指示符:CATEGORY_L1、CATEGORY_L2、CATEGORY_L3。这样,您可以根据子类别筛选建议,即使一个物品属于多个多级类别,也是如此。例如,某个物品可能包含每个类别级别的以下数据:
-
CATEGORY_L1:电子产品|生产力
-
CATEGORY_L2:生产力|计算机
-
CATEGORY_L3:鼠标
在此示例中,该物品位于电子产品 > 生产力 > 鼠标层次结构和 生产力 > 计算机 > 鼠标层次结构中。我们建议使用的级别最高仅到 L3,但如有必要,可以使用更多级别。有关创建和使用筛选器的信息,请参阅筛选建议和用户细分。
默认物品架构(ECOMMERCE 域)
以下是仅包含必填字段的 ECOMMERCE 域的物品数据集的默认架构。
{
"type": "record",
"name": "Items",
"namespace": "com.amazonaws.personalize.schema",
"fields": [
{
"name": "ITEM_ID",
"type": "string"
},
{
"name": "PRICE",
"type": "float"
},
{
"name": "CATEGORY_L1",
"type": [
"string"
],
"categorical": true
}
],
"version": "1.0"
}