在查准率和查全率之间做出决定
每个 FindMatches
转换均包含一个 precision-recall
参数。您可以使用此参数指定下列项之一:
-
如果您更关心转换错误地报告两个记录匹配,而实际上它们不匹配,则您应强调 precision (查准率)。
-
如果您更关心转换未能检测到真正匹配的记录,则您应强调 recall (查全率)。
您可以在 AWS Glue 控制台上或使用 AWS Glue 机器学习 API 操作进行此权衡。
何时倾向于查准率
如果您更关心 FindMatches
导致一对实际不匹配的记录进行匹配的风险,请倾向于查准率。要倾向于查准率,请选择 higher (较大) 查准率-查全率权衡值。对于较大的值,FindMatches
转换需要更多的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录不匹配。
例如,假设您使用 FindMatches
检测视频目录中的重复项,并且您向转换提供更大的查准率-查全率值。如果您的转换错误地检测到 Star Wars: A New Hope 与 Star Wars: The Empire Strikes Back 相同,则可能会为需要 A New Hope 的客户显示 The Empire Strikes Back。这将是一个糟糕的客户体验。
不过,如果转换无法检测到 Star Wars: A New Hope 和 Star Wars: Episode IV—A New Hope 是相同的项,则客户最初可能会感到困惑,不过可能最终会将其视为相同。这将是一个错误,但不像以前的情况那么糟糕。
何时倾向于查全率
如果您更关心 FindMatches
转换结果可能无法检测到实际匹配的一对记录的风险,请倾向于查全率。要倾向于查全率,请选择 lower (较小) 的查准率-查全率权衡值。对于较小的值,FindMatches
转换需要更少的证据来决定是否应匹配一对记录。将转换调整为偏向于表示记录匹配。
例如,这可能是安全组织的优先事项。假设您将客户与一系列已知的欺诈者进行匹配,并且确定客户是否为欺诈者非常重要。您使用 FindMatches
将欺诈者名单与客户名单进行匹配。每当 FindMatches
检测到两个名单之间的匹配项时,都会指派一名审计人员来验证该人员实际上是否为欺诈者。您的组织可能更愿意选择查全率而不是查准率。换句话说,当客户不是欺诈者时,您宁愿让审计人员手动审查并拒绝某些情况,而不是未能识别出客户实际上在欺诈者名单上。
如何倾向于查准率和查全率
提高查准率和查全率的最佳方法是标记更多数据。在标记更多数据时,FindMatches
转换的总体准确性将提高,从而提高查准率和查全率。然而,即使对于最准确的转换,也始终存在一个灰色区域,您需要在该区域中尝试倾向于查准率或查全率,或者在中间选择一个值。