選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用相符項目可信度分數估計相符項目的品質

焦點模式
使用相符項目可信度分數估計相符項目的品質 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

相符項目可信度分數提供 FindMatches 所找到之相符項目的品質估計,以區分機器學習模型中具有高度自信、不確定或不太可能的相符記錄。相符項目可信度分數介於 0 到 1 之間,其中分數越高,表示相似度越高。檢查相符項目可信度分數可讓您區分系統高度可信 (您可能會決定合併) 的相符項目叢集、系統不確定的叢集 (您可能會決定安排人工檢閱),以及系統認為不太可能的叢集 (可能會決定拒絕)。

如果您看到高相符項目可信度分數,但確定沒有相符項目;或是看到低分數,但實際上確定有相符項目,則可能要調整自己的訓練資料。

存在大規模產業資料集時,可信度分數就特別有用,因為檢閱每個 FindMatches 決定是不切實際的行為。

相符項目可信度分數在 AWS Glue 2.0 或更高版本中推出。

產生相符項目可信度分數

您可以在呼叫 FindMatchesFindIncrementalMatches API 時將 computeMatchConfidenceScores 的布林值設定為 True,即可產生相符項目可信度分數。

AWS Glue 將新的 column match_confidence_score 新增至輸出。

相符項目評分範例

例如,請考慮下列相符的記錄:

分數 >= 0.9

相符記錄的摘要:

primary_id | match_id | match_confidence_score 3281355037663 85899345947 0.9823658302132061 1546188247619 85899345947 0.9823658302132061

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到兩條記錄非常相似,共同具有 display_positionprimary_namestreet name

分數 >= 0.8 和分數 < 0.9

相符記錄的摘要:

primary_id | match_id | match_confidence_score 309237680432 85899345928 0.8309852373674638 3590592666790 85899345928 0.8309852373674638 343597390617 85899345928 0.8309852373674638 249108124906 85899345928 0.8309852373674638 463856477937 85899345928 0.8309852373674638

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到這些記錄具有相同的 primary_namecountry

分數 > = 0.6 和分數 < 0.7

相符記錄的摘要:

primary_id | match_id | match_confidence_score 2164663519676 85899345930 0.6971099896480333 317827595278 85899345930 0.6971099896480333 472446424341 85899345930 0.6971099896480333 3118146262932 85899345930 0.6971099896480333 214748380804 85899345930 0.6971099896480333

詳細資訊:

網際網路閘道的路由表範例。

在此範例中,我們可以看到這些記錄僅具有相同的 primary_name

如需詳細資訊,請參閱:

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。