本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 Amazon Personalize 准备培训数据
选择域名用例或配方并记下其数据要求后,就可以开始准备数据了。Amazon Personalize 可以使用以下类型的数据:
-
商品互动 — 在 Amazon Personalize 中,商品互动是用户与您目录中商品之间的积极互动事件。例如,用户在看电影、查看房源或购买一双鞋。
-
商品-商品元数据可能包括目录中每件商品的价格、SKU类型、描述或库存等信息。
-
用户-用户元数据可能包括每位用户的年龄、性别、忠诚度会员资格和兴趣等信息。
-
操作 — 操作是您可能需要向客户推荐的互动活动。操作可能包括安装您的移动应用、填写会员资料、加入忠诚度计划或注册促销电子邮件。对于 Next-Best-Action 配方,需要操作数据集。没有其它自定义配方或域使用案例使用操作数据。
-
操作互动-操作交互是用户和操作之间的交互事件。Next-Best-Action 配方使用这些数据和操作数据集中的数据向用户建议操作。没有其他自定义配方或域用例使用动作交互数据。
Amazon Personalize 将数据存储在数据集中,每种数据类型对应一个数据集。每个数据集都有不同的要求。当您将数据导入 Amazon Personalize 数据集时,您可以选择批量导入、单独导入或两者兼而有之。批量导入涉及导入存储在 Amazon S3 存储桶中的一个或多个CSV文件中的大量历史记录。
-
如果您没有批量数据,则可以使用单独的导入操作来收集数据和直播事件,直到您满足 Amazon Personalize 培训要求以及您的域用例或配方的数据要求。有关录制事件的信息,请参阅记录实时事件以影响推荐。有关导入单个记录的信息,请参见将个人记录导入 Amazon Personalize 数据集。
-
如果您不确定自己是否有足够的数据或对其质量有疑问,可以将您的数据导入亚马逊个性化数据集,然后使用亚马逊个性化对其进行分析。有关更多信息,请参阅 分析 Amazon Personalize 数据集中数据的质量和数量。
以下各节提供了每种 Amazon Personalize 数据集类型的数据要求和批量数据准备指南。如果您没有批量数据,请查看各节以了解可以通过单个导入操作导入的必填数据和可选数据。如果您在格式化数据时需要其他帮助,可以使用 Amazon Data Wrangler( SageMaker Data Wrangler)来准备数据。有关更多信息,请参阅 使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据。
准备完数据后,就可以创建架构JSON文件了。此文件告知 Amazon Personalize 您的数据结构。有关更多信息,请参阅 为 Amazon Personalize 架构创建架构JSON文件。
适用于所有类型数据的批量数据格式指南
以下指南和要求有助于确保批量数据格式正确。
-
您的输入数据必须在CSV(逗号分隔值)文件中。
-
CSV文件的第一行必须包含列标题。不要将标题括在引号 (") 中。
-
列必须具有唯一的字母数字名称。例如,您不能同时添加
GENRES_FIELD_1
字段和GENRESFIELD1
字段。 -
确保您的数据集类型有必填字段,并确保其名称符合 Amazon Personalize 要求。例如,您的商品数据中可能有一个名IDs为
ITEM_IDENTIFICATION_NUMBER
的列,表示您的每件商品。要将此列用作 ITEM _ID 字段,请将该列重命名为。ITEM_ID
如果您使用 Data Wrangler 来设置数据格式,则可以使用为 Amazon Personalize 映射列 Data Wrangler 转换,来确保您的列命名正确。有关使用 Data Wrangler 准备数据的信息,请参阅使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据。
-
CSV文件中的每条记录都必须在一行上。
-
Amazon Personalize 不支持复杂的数据类型,例如数组和地图。
-
要让 Amazon Personalize 在训练或筛选时使用布尔数据,请使用字符串值
"True"
和"False"
/或数值表示1
true 和0
false。 -
如果您使用 Data Wrangler 设置数据格式,则可以使用 Data Wrangler 转换将值解析为类型来转换数据类型。
-
TIMESTAMP
并且CREATION_TIMESTAMP
数据必须采用UNIX纪元时间格式。有关更多信息,请参阅 时间戳数据。 -
避免在项目 ID、用户 ID 和操作 ID 数据中包含任何
"
字符或特殊字符。 -
如果您的数据包含任何未ASCII编码的字符,则您的CSV文件必须以 UTF -8 格式编码。
-
确保按照非结构化文本元数据中所述设置所有文本数据的格式。