本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Clean Rooms ML
AWS Clean Rooms 机器学习为双方提供了一种隐私保护方法,可以识别其数据中的相似用户,而无需彼此共享数据。第一方将训练数据带到 AWS Clean Rooms 这样他们就可以创建和配置外观相似的模型并将其与协作关联起来。然后,将种子数据带到协作中,以创建类似于训练数据的相似区段。
有关其工作方式的更详细说明,请参阅跨账户作业。
-
训练数据提供者 - 贡献训练数据、创建和配置相似模型并将该相似模型与一个协作关联的一方。
-
种子数据提供者 - 贡献种子数据、生成相似细分并导出其相似细分的一方。
-
训练数据 - 训练数据提供者的数据,用于生成相似模型。训练数据用于测量用户行为的相似性。
训练数据必须包含用户 ID、项目 ID 和时间戳列。(可选)训练数据可以包含其他交互作为数值或分类特征。举例而言,交互可以是观看的视频、购买的物品或阅读的文章列表。
-
种子数据 - 种子数据提供者的数据,用于创建相似细分。种子数据可以直接提供,也可以来自结果的结果 AWS Clean Rooms 查询。相似细分输出是训练数据中与种子用户最相似的一组用户。
-
相似模型 - 训练数据的机器学习模型,用于在其他数据集中查找相似用户。
使用时API,受众模型一词等同于相似模型。例如,您可以使用CreateAudienceModelAPI来创建外观相似的模型。
-
Lookalik e segment — 与种子数据最为相似的训练数据子集。
使用时API,您可以使用创建外观相似的StartAudienceGenerationJobAPI区段。
训练数据提供者的数据绝不会与种子数据提供者共享,并且种子数据提供者的数据绝不会与训练数据提供者共享。相似细分输出与训练数据提供者共享,但绝不会与种子数据提供者共享。
有关相似模型的更多信息,请参阅以下主题。
主题
操作方法 AWS Clean Rooms 机器学习起作用了
Clean Rooms ML 要求两方,即训练数据提供者和种子数据提供者,按顺序工作 AWS Clean Rooms 将他们的数据整合到协作中。以下是训练数据提供者必须先完成的工作流程:
-
训练数据提供者的数据必须存储在 AWS Glue 用户与项目交互的数据目录表。训练数据必须至少包含用户 ID 列、交互 ID 列和时间戳列。
-
训练数据提供者将训练数据注册到 AWS Clean Rooms.
-
训练数据提供者创建一个相似模型,可以将其与多个种子数据提供者共享。相似模型是一种深度神经网络,训练时间可能长达 24 小时。它不会自动进行再训练,我们建议您每周对模型进行重新训练。
-
训练数据提供者配置相似模型,包括是否共享相关性指标以及输出细分的 Amazon S3 位置。训练数据提供者可以通过单个相似模型创建多个配置的相似模型。
-
训练数据提供者将配置的受众模型与与种子数据提供者共享的协作关联起来。
以下是种子数据提供者接下来必须完成的工作流程:
-
种子数据提供者的数据可以存储在 Amazon S3 存储桶中,可以来自查询结果。
-
种子数据提供者开启与训练数据提供者共享的协作。
-
种子数据提供者从协作页面的 “Clean Rooms ML” 选项卡中创建一个相似的区段。
-
种子数据提供者可以评估相关性指标(如果已共享),并导出相似区段以供外部使用 AWS Clean Rooms.