Las puntuaciones de confianza de coincidencias proporcionan una estimación de la calidad de las coincidencias encontradas por FindMatches para distinguir entre registros coincidentes en los que el modelo de machine learning es muy confiable, incierto o improbable. Una puntuación de confianza de coincidencia estará entre 0 y 1, donde una puntuación más alta significa mayor similitud. El análisis de las puntuaciones de confianza de coincidencias le permite distinguir entre grupos de coincidencias en los que el sistema tiene mucha confianza (que puede decidir fusionar), clústeres sobre los que el sistema no está seguro (que puede decidir hacer revisar por un humano) y clústeres que el sistema considera improbables (que puede decidir rechazar).
Es posible que quiera ajustar sus datos de formación en situaciones en las que vea una puntuación de confianza alta, pero determine que no hay coincidencias, o en las que vea una puntuación baja pero determine que sí hay, de hecho, coincidencias.
Las puntuaciones de confianza son especialmente útiles cuando hay conjuntos de datos industriales de gran tamaño, en los que no es factible revisar todas las decisiones de FindMatches.
Las puntuaciones de confianza de coincidencias están disponibles en AWS Glue, versión 2.0 o posterior.
Generación de puntuaciones de confianza de coincidencias
Puede generar puntuaciones de confianza de coincidencias al establecer el valor booleano de computeMatchConfidenceScores
a verdadero cuando llama a la API FindMatches
o FindIncrementalMatches
.
AWS Glue agrega una nueva column match_confidence_score
al resultado.
Ejemplos de puntuación de coincidencias
Por ejemplo, considere los siguientes registros coincidentes:
Puntuación >=0,9
Resumen de registros coincidentes:
primary_id | match_id | match_confidence_score
3281355037663 85899345947 0.9823658302132061
1546188247619 85899345947 0.9823658302132061
Detalles:

En este ejemplo, podemos ver que dos registros son muy similares y comparten display_position
, primary_name
y street name
.
Puntuación >=0,8 y puntuación <0,9
Resumen de registros coincidentes:
primary_id | match_id | match_confidence_score
309237680432 85899345928 0.8309852373674638
3590592666790 85899345928 0.8309852373674638
343597390617 85899345928 0.8309852373674638
249108124906 85899345928 0.8309852373674638
463856477937 85899345928 0.8309852373674638
Detalles:

En este ejemplo, podemos ver que estos registros comparten el mismo primary_name
y country
.
Puntuación >=0,6 y puntuación <0,7
Resumen de registros coincidentes:
primary_id | match_id | match_confidence_score
2164663519676 85899345930 0.6971099896480333
317827595278 85899345930 0.6971099896480333
472446424341 85899345930 0.6971099896480333
3118146262932 85899345930 0.6971099896480333
214748380804 85899345930 0.6971099896480333
Detalles:

En este ejemplo, podemos ver que estos registros comparten solo el mismo primary_name
.
Para obtener más información, consulte: