Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Stima della qualità delle corrispondenze utilizzando i punteggi di confidenza delle corrispondenze
I punteggi di confidenza delle corrispondenze forniscono una stima della qualità delle corrispondenze trovate da FindMatches per distinguere tra registri corrispondenti in cui il modello di machine learning è altamente sicuro, incerto o improbabile. Un punteggio di confidenza delle corrispondenze sarà compreso tra 0 e 1, dove il punteggio più alto significa una somiglianza più elevata. L'esame dei punteggi di confidenza delle corrispondenze consente di distinguere tra cluster di corrispondenze in cui il sistema è altamente sicuro (che potresti decidere di unire), cluster su cui il sistema è incerto (che potresti decidere di far esaminare da un essere umano) e cluster che il sistema ritiene improbabile (che potresti decidere di rifiutare).
Potresti dover modificare i tuoi dati di formazione in situazioni in cui vedi un punteggio di confidenza elevato, ma determinare che non ci sono corrispondenze, o dove vedi un punteggio basso determinare che ci sono, di fatto, corrispondenze.
I punteggi di corrispondenza sono particolarmente utili quando esistono set di dati industriali di grandi dimensioni, dove è impossibile riesaminare ogni decisione FindMatches.
I punteggi di confidenza delle corrispondenze sono disponibili in AWS Glue versione 2.0 o successive.
Generazione di punteggi di confidenza delle corrispondenze
È possibile generare punteggi di confidenza delle corrispondenze impostando il valore booleano di computeMatchConfidenceScores
su Vero quando si chiama FindMatches
o lAPI FindIncrementalMatches
.
AWS Glue aggiunge una nuova column match_confidence_score
all'output.
Esempi di punteggio di corrispondenza
Considera, ad esempio, le corrispondenze di registri seguenti:
Punteggio >= 0,9
Riepilogo dei registri corrispondenti:
primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061
Informazioni:
Da questo esempio, possiamo vedere che due registri sono molto simili e condividono display_position
, primary_name
estreet name
.
Punteggio >= 0,8 e punteggio < 0,9
Riepilogo dei registri corrispondenti:
primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638
Informazioni:
Da questo esempio, possiamo vedere che questi registri condividono gli stessi primary_name
ecountry
.
Punteggio >= 0,6 e punteggio < 0,7
Riepilogo dei registri corrispondenti:
primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333
Informazioni:
Da questo esempio, possiamo vedere che questi registri condividono solo lo stesso primary_name
.
Per ulteriori informazioni, consulta: