Stima della qualità delle corrispondenze utilizzando i punteggi di confidenza delle corrispondenze - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Stima della qualità delle corrispondenze utilizzando i punteggi di confidenza delle corrispondenze

I punteggi di confidenza delle corrispondenze forniscono una stima della qualità delle corrispondenze trovate da FindMatches per distinguere tra registri corrispondenti in cui il modello di machine learning è altamente sicuro, incerto o improbabile. Un punteggio di confidenza delle corrispondenze sarà compreso tra 0 e 1, dove il punteggio più alto significa una somiglianza più elevata. L'esame dei punteggi di confidenza delle corrispondenze consente di distinguere tra cluster di corrispondenze in cui il sistema è altamente sicuro (che potresti decidere di unire), cluster su cui il sistema è incerto (che potresti decidere di far esaminare da un essere umano) e cluster che il sistema ritiene improbabile (che potresti decidere di rifiutare).

Potresti dover modificare i tuoi dati di formazione in situazioni in cui vedi un punteggio di confidenza elevato, ma determinare che non ci sono corrispondenze, o dove vedi un punteggio basso determinare che ci sono, di fatto, corrispondenze.

I punteggi di corrispondenza sono particolarmente utili quando esistono set di dati industriali di grandi dimensioni, dove è impossibile riesaminare ogni decisione FindMatches.

I punteggi di confidenza delle corrispondenze sono disponibili in AWS Glue versione 2.0 o successive.

Generazione di punteggi di confidenza delle corrispondenze

È possibile generare punteggi di confidenza delle corrispondenze impostando il valore booleano di computeMatchConfidenceScores su Vero quando si chiama FindMatches o lAPI FindIncrementalMatches.

AWS Glue aggiunge una nuova column match_confidence_score all'output.

Esempi di punteggio di corrispondenza

Considera, ad esempio, le corrispondenze di registri seguenti:

Punteggio >= 0,9

Riepilogo dei registri corrispondenti:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

Informazioni:

Esempio di tabella di routing con un gateway Internet.

Da questo esempio, possiamo vedere che due registri sono molto simili e condividono display_position, primary_name estreet name.

Punteggio >= 0,8 e punteggio < 0,9

Riepilogo dei registri corrispondenti:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

Informazioni:

Esempio di tabella di routing con un gateway Internet.

Da questo esempio, possiamo vedere che questi registri condividono gli stessi primary_name ecountry.

Punteggio >= 0,6 e punteggio < 0,7

Riepilogo dei registri corrispondenti:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

Informazioni:

Esempio di tabella di routing con un gateway Internet.

Da questo esempio, possiamo vedere che questi registri condividono solo lo stesso primary_name.

Per ulteriori informazioni, consulta: