Clean Rooms ML 的培训数据要求 - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Clean Rooms ML 的培训数据要求

要成功创建相似模型,您的训练数据必须满足以下要求:

  • 训练数据必须采用 Parquet CSV、或JSON格式。

  • 您的训练数据必须编入目录 AWS Glue。 有关更多信息,请参阅入门 AWS Glue Data Catalog中的 AWS Glue 开发者指南。 我们建议使用 AWS Glue Crawlers 可以创建您的表,因为架构是自动推断出来的。

  • 包含训练数据和种子数据的 Amazon S3 存储桶位于同一个存储桶中 AWS 区域与您的其他 Clean Rooms 机器学习资源相同。

  • 训练数据必须包含至少 100,000 个独立用户IDs,每个用户至少有两个项目互动。

  • 训练数据必须包含至少 100 万条记录。

  • 操作中指定的架构必须与在CreateTrainingDataset操作时定义的架构保持一致 AWS Glue 表已创建。

  • CreateTrainingDataset操作中定义了所提供的表中定义的必填字段。

    字段类型 支持的数据类型 必需 描述
    USER_ID 字符串、整数、大整数 数据集中每个用户的唯一标识符。它应该是一个非个人身份信息 (PII) 值。这可能是经过哈希处理的标识符或客户 ID。
    ITEM_ID 字符串、整数、大整数 用户与之交互的每个项目的唯一标识符。
    TIMESTAMP bigint、int、时间戳 用户与项目交互的时间。值必须采用 Unix 纪元时间(以秒为单位)的格式。
    CATEGORICAL_FEATURE 字符串、整数、浮点数、大整数、双精度、布尔值、数组 捕获与用户或项目相关的分类数据。这可能包括事件类型(例如点击或购买)、用户人口统计(年龄组、性别-匿名)、用户位置(城市、国家-匿名)、商品类别(例如服装或电子产品)或商品品牌。
    NUMERICAL_FEATURE 双精度、浮点数、整数、bigint 捕获与用户或项目相关的数值数据。这可能包括用户购买历史记录(总消费金额)、商品价格、某件商品的访问次数或用户对商品的评分。
  • 或者,您最多可以提供 10 个类别或数值特征。

以下是CSV格式的有效训练数据集的示例。

USER_ID,ITEM_ID,TIMESTAMP, EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10