在准确性和成本之间做出决定
每个 FindMatches
转换均包含一个 accuracy-cost
参数。您可以使用此参数指定下列项之一:
-
如果您更关心准确报告两个记录匹配的转换,则应强调准确性。
-
如果您更关心转换的运行成本或速度,则应强调更低成本。
您可以在 AWS Glue 控制台上或使用 AWS Glue 机器学习 API 操作进行此权衡。
何时倾向于准确性
如果您更关心 find
matches
结果不包含匹配项的风险,则倾向于准确性。要倾向于准确性,请选择较大准确性-成本权衡值。对于较大的值,FindMatches
转换需要更多时间来更详细地搜索正确匹配的记录。请注意,此参数不会使错误地将不匹配记录对称为匹配项的可能性降低。转换将调整为倾向于花更多时间查找匹配项。
何时倾向于成本
如果您更关心运行 find
matches
转换的成本,而不是找到多少匹配项,请倾向于成本。要倾向于成本,请选择较小 准确性-成本权衡值。对于较小的值,运行 FindMatches
转换所需的资源更少。转换将调整为倾向于查找更少的匹配项。如果在倾向于较低成本时结果是可接受的,请使用此设置。
如何倾向于准确性和较低成本
检查更多记录对以确定它们是否匹配需要更多的机器时间。如果您想减少成本而不降低质量,则可执行以下几个步骤:
消除数据源中您不关心匹配的记录。
从您的数据源中消除您确信在做出匹配/不匹配决策时没有用的列。确定这一点的一个好方法是消除您认为不会影响您就一组记录是否“相同”做出决定的列。