为 Amazon Personalize 准备培训数据 - Amazon Personalize

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon Personalize 准备培训数据

选择域名用例或配方并记下其数据要求后,就可以开始准备数据了。Amazon Personalize 可以使用以下类型的数据:

  • 商品互动 — 在 Amazon Personalize 中,商品互动是用户与您目录中商品之间的积极互动事件。例如,用户在看电影、查看房源或购买一双鞋。

  • 商品-商品元数据可能包括目录中每件商品的价格、SKU类型、描述或库存等信息。

  • 用户-用户元数据可能包括每位用户的年龄、性别、忠诚度会员资格和兴趣等信息。

  • 操作 — 操作是您可能需要向客户推荐的互动活动。操作可能包括安装您的移动应用、填写会员资料、加入忠诚度计划或注册促销电子邮件。对于 Next-Best-Action 配方,需要操作数据集。没有其它自定义配方或域使用案例使用操作数据。

  • 操作互动-操作交互是用户和操作之间的交互事件。Next-Best-Action 配方使用这些数据和操作数据集中的数据向用户建议操作。没有其他自定义配方或域用例使用动作交互数据。

Amazon Personalize 将数据存储在数据集中,每种数据类型对应一个数据集。每个数据集都有不同的要求。当您将数据导入 Amazon Personalize 数据集时,您可以选择批量导入、单独导入或两者兼而有之。批量导入涉及导入存储在 Amazon S3 存储桶中的一个或多个CSV文件中的大量历史记录。

以下各节提供了每种 Amazon Personalize 数据集类型的数据要求和批量数据准备指南。如果您没有批量数据,请查看各节以了解可以通过单个导入操作导入的必填数据和可选数据。如果您在格式化数据时需要其他帮助,可以使用 Amazon Data Wrangler( SageMaker Data Wrangler)来准备数据。有关更多信息,请参阅 使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据

准备完数据后,就可以创建架构JSON文件了。此文件告知 Amazon Personalize 您的数据结构。有关更多信息,请参阅 为 Amazon Personalize 架构创建架构JSON文件

适用于所有类型数据的批量数据格式指南

以下指南和要求有助于确保批量数据格式正确。

  • 您的输入数据必须在CSV(逗号分隔值)文件中。

  • CSV文件的第一行必须包含列标题。不要将标题括在引号 (") 中。

  • 列必须具有唯一的字母数字名称。例如,您不能同时添加 GENRES_FIELD_1 字段和 GENRESFIELD1 字段。

  • 确保您的数据集类型有必填字段,并确保其名称符合 Amazon Personalize 要求。例如,您的商品数据中可能有一个名IDs为ITEM_IDENTIFICATION_NUMBER的列,表示您的每件商品。要将此列用作 ITEM _ID 字段,请将该列重命名为。ITEM_ID如果您使用 Data Wrangler 来设置数据格式,则可以使用为 Amazon Personalize 映射列 Data Wrangler 转换,来确保您的列命名正确。

    有关使用 Data Wrangler 准备数据的信息,请参阅使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据

  • CSV文件中的每条记录都必须在一行上。

  • Amazon Personalize 不支持复杂的数据类型,例如数组和地图。

  • 要让 Amazon Personalize 在训练或筛选时使用布尔数据,请使用字符串值"True""False" /或数值表示 1 true 和 0 false。

  • 如果您使用 Data Wrangler 设置数据格式,则可以使用 Data Wrangler 转换将值解析为类型来转换数据类型。

  • TIMESTAMP并且CREATION_TIMESTAMP数据必须采用UNIX纪元时间格式。有关更多信息,请参阅 时间戳数据

  • 避免在项目 ID、用户 ID 和操作 ID 数据中包含任何"字符或特殊字符。

  • 如果您的数据包含任何未ASCII编码的字符,则您的CSV文件必须以 UTF -8 格式编码。

  • 确保按照非结构化文本元数据中所述设置所有文本数据的格式。