Generieren von Match-Konfidenzwerten Beispiele für Match-Scoring

Schätzen der Qualität von Übereinstimmungen mithilfe von Match-Konfidenzwerten

Übereinstimmungswerte bieten eine Schätzung der Qualität der gefundenen Treffer, FindMatches um zwischen übereinstimmenden Datensätzen zu unterscheiden, bei denen das Modell des maschinellen Lernens sehr sicher, unsicher oder unwahrscheinlich ist. Ein Match-Konfidenzwert liegt zwischen 0 und 1, wobei ein höherer Punktestand eine höhere Ähnlichkeit bedeutet. Durch die Untersuchung von Match-Konfidenzwerten können Sie zwischen Clustern von Übereinstimmungen unterscheiden, in denen das System sehr zuversichtlich ist (die Sie möglicherweise zusammenführen möchten), Clustern, bei denen das System unsicher ist (die Sie möglicherweise von einem Menschen überprüfen lassen wollen) und Clustern, die das System für unwahrscheinlich hält (die Sie möglicherweise ablehnen).

Möglicherweise möchten Sie Ihre Trainingsdaten in Situationen anpassen, in denen Sie einen hohen Match-Konfidenzwert sehen, aber feststellen, dass es keine Übereinstimmungen gibt, oder in denen Sie eine niedrige Punktzahl sehen, aber feststellen, dass es tatsächlich Übereinstimmungen gibt.

Konfidenzwerte sind besonders nützlich, wenn umfangreiche industrielle Datensätze vorliegen, bei denen es nicht möglich ist, jede FindMatches Entscheidung zu überprüfen.

Match-Konfidenzwerte sind in AWS Glue Version 2.0 oder höher verfügbar.

Generieren von Match-Konfidenzwerten

Sie können Match-Konfidenzwerte generieren, indem Sie beim Aufrufen der FindMatches- oder FindIncrementalMatches-API den booleschen Wert von computeMatchConfidenceScores auf „True“ setzen.

AWS Glue fügt der Ausgabe einen neuen column match_confidence_score hinzu.

Beispiele für Match-Scoring

Betrachten Sie beispielsweise die folgenden übereinstimmenden Datensätze:

Ergebnis >= 0,9

Zusammenfassung der übereinstimmenden Datensätze:


  primary_id  |   match_id  | match_confidence_score

3281355037663    85899345947   0.9823658302132061
1546188247619    85899345947   0.9823658302132061

Details:

Ein Beispiel für eine Routing-Tabelle mit einem Internet-Gateway.

In diesem Beispiel sehen wir , dass zwei Datensätze sehr ähnlich sind und display_position, primary_name und street name gemeinsam haben.

Ergebnis >= 0,8 und Ergebnis < 0,9

Zusammenfassung der übereinstimmenden Datensätze:


  primary_id  |   match_id  | match_confidence_score

309237680432     85899345928   0.8309852373674638
3590592666790    85899345928   0.8309852373674638
343597390617     85899345928   0.8309852373674638
249108124906     85899345928   0.8309852373674638
463856477937     85899345928   0.8309852373674638

Details:

In diesem Beispiel sehen wir, dass diese Datensätze primary_name und country gemeinsam haben.

Ergebnis >= 0,6 und Ergebnis < 0,7

Zusammenfassung der übereinstimmenden Datensätze:



  primary_id  |   match_id  | match_confidence_score

2164663519676    85899345930   0.6971099896480333
 317827595278    85899345930   0.6971099896480333
 472446424341    85899345930   0.6971099896480333
3118146262932    85899345930   0.6971099896480333
 214748380804    85899345930   0.6971099896480333

Details:

In diesem Beispiel sehen wir, dass diese Datensätze nur primary_name gemeinsam haben.

Weitere Informationen finden Sie unter:

Schritt 5: Hinzufügen und Ausführen eines Auftrags mit Ihrer Machine Learning-Transformation
PySpark: FindMatches Klasse
PySpark: FindIncrementalMatches Klasse
Scala: FindMatches Klasse
Scala: FindIncrementalMatches Klasse

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Entscheidung zwischen Genauigkeit und Kosten

Schulen der Transformation zum Suchen von Übereinstimmungen