本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Clean Rooms 机器学习模型评估指标
Clean Rooms ML 会计算召回率和相关性分数,以确定模型的表现如何。Recall 比较了相似数据和训练数据之间的相似性。相关性分数用于决定受众应该有多大,而不是模型是否表现良好。
召回率是衡量相似区段与训练数据的相似程度的公正衡量标准。召回率是受众生成作业包含在种子受众中的训练数据样本中最相似的用户(默认为最相似的20%)的百分比。值的范围为 0—1。值越大表示受众越好。召回值大致等于最大分区百分比表示受众模型等同于随机选择。
我们认为这是比准确性、精度和 F1 分数更好的评估指标,因为 Clean Rooms ML 在构建模型时没有准确标记真正的负面用户。
细分级相关性分数 是一个相似性指标,值范围从 -1(最不相似)到 1(最相似)。Clean Rooms ML 会针对各种区段大小计算一组相关性分数,以帮助您确定数据的最佳区段大小。随着区段大小的增加,相关性分数会单调降低;因此,随着区段大小的增加,它可能与种子数据不太相似。在细分级相关性分数达到 0 时,模型预测相似细分中的所有用户来自与种子数据相同的分布。增加输出大小可能会包括与种子数据不属于相同分布的相似区段中的用户。
相关性分数在单个广告系列中是标准化的,不应用于跨广告系列进行比较。相关性分数不应用作任何业务结果的单一来源证据。这是因为除了相关性之外,这些因素还会受到多种复杂因素的影响,例如库存质量、库存类型和广告投放时间。
不应使用相关性分数来判断种子的质量,而应使用相关性分数来判断种子的质量,而应使用它是否可以增加或减少。考虑以下示例:
-
全部为正分 - 这表明预测为相似的输出用户比相似细分中包含的用户多。这对于属于庞大市场的种子数据来说很常见,例如过去一个月购买过牙膏的所有人。我们建议查看较小的种子数据,例如,过去一个月内多次购买牙膏的每个人。
-
对于你想要的相似区段大小,所有负分或负数 — 这表明 Clean Rooms ML 预测在所需的相似区段大小中没有足够的相似用户。这可能是因为,种子数据太具体或市场太小。我们建议为种子数据应用更少的筛选条件,或者扩大市场。例如,如果原始种子数据是购买婴儿车和汽车座椅的客户,您可以将市场扩大到购买多种婴儿产品的客户。
训练数据提供者确定是否公开相关性分数以及计算相关性分数的桶区间。