Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Les scores de confiance des correspondances fournissent une estimation de la qualité des correspondances trouvées FindMatches afin de faire la distinction entre les enregistrements correspondants dans lesquels le modèle d'apprentissage automatique est très sûr, incertain ou peu probable. Une note de confiance des correspondances sera comprise entre 0 et 1, alors qu'une note plus élevée signifie une similitude plus élevée. L'examen des notes de confiance des correspondances vous permet de distinguer les clusters de correspondances pour lesquels le système est très confiant (que vous pouvez décider de fusionner), les clusters dont le système est incertain (que vous pouvez décider de faire vérifier par un humain) et les clusters que le système juge improbables (que vous pouvez décider de rejeter).
Vous voudrez peut-être ajuster vos données d'entraînement dans des situations où vous constatez une note de confiance des correspondances élevées, mais déterminez qu'il n'y a pas de correspondances, ou lorsque vous voyez une note faible, mais déterminez qu'il y a en fait des correspondances.
Les scores de confiance sont particulièrement utiles lorsqu'il existe des ensembles de données industriels de grande taille, pour lesquels il est impossible de revoir chaque FindMatches décision.
Les scores de confiance des matchs sont disponibles dans AWS Glue version 2.0 ou ultérieure.
Génération des notes de confiance des correspondances
Vous pouvez générer des notes de confiance des correspondances en définissant la valeur booléenne de computeMatchConfidenceScores
sur true (VRAI) lorsque vous appelez l'API FindMatches
ou FindIncrementalMatches
.
AWS Glue ajoute un nouveau column match_confidence_score
à la sortie.
Exemples de notation des correspondances
Prenons l'exemple des registres de correspondance suivant :
Note >= 0,9
Résumé des registres correspondants :
primary_id | match_id | match_confidence_score
3281355037663 85899345947 0.9823658302132061
1546188247619 85899345947 0.9823658302132061
Détails :

Dans cet exemple, nous pouvons voir que deux registres sont très similaires et partagent display_position
, primary_name
, et street name
.
Note >= 0,8 et note < 0,9
Résumé des registres correspondants :
primary_id | match_id | match_confidence_score
309237680432 85899345928 0.8309852373674638
3590592666790 85899345928 0.8309852373674638
343597390617 85899345928 0.8309852373674638
249108124906 85899345928 0.8309852373674638
463856477937 85899345928 0.8309852373674638
Détails :

Dans cet exemple, nous pouvons voir que ces registres partagent le mêmeprimary_name
, et country
.
Note >= 0,6 et note < 0,7
Résumé des registres correspondants :
primary_id | match_id | match_confidence_score
2164663519676 85899345930 0.6971099896480333
317827595278 85899345930 0.6971099896480333
472446424341 85899345930 0.6971099896480333
3118146262932 85899345930 0.6971099896480333
214748380804 85899345930 0.6971099896480333
Détails :

Dans cet exemple, nous pouvons voir que ces registres ne partagent que le même primary_name
.
Pour plus d’informations, consultez :