在精確度和取回率之間進行選擇 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在精確度和取回率之間進行選擇

每個 FindMatches 轉換都包含了 precision-recall 參數。您可以使用此參數來指定以下其中一個項目:

  • 若您更擔心轉換在兩筆記錄實際上不相符時錯誤地報告成相符,建議您強調「精確度」

  • 如果您更擔心轉換無法偵測到相符的記錄,建議您強調「取回率」

您可以在 AWS Glue 主控台上進行這項取捨,或是使用 AWS Glue 機器學習 API 操作。

何時應著重在精確度

若您更擔心 FindMatches 在兩筆記錄不相符報告成相符的風險,建議您著重在精確度。若要著重在精確度,請選擇「較高」的精確度取回率取捨值。使用更高的值,FindMatches 轉換便需要更多證據來判斷兩筆記錄是否相符。轉換會調校成較傾向於將記錄視為不相符。

例如,假設您正在使用 FindMatches 偵測影片目錄中的重複項目,並且您為轉換提供了較高的精確度取回率值。若您的轉換不正確地將「星際大戰四部曲:曙光乍現」視為與「星際大戰:帝國反擊戰」相同,想要「星際大戰四部曲:曙光乍現」的客戶便可能會看到「星際大戰:帝國反擊戰」。這會是不佳的客戶體驗。

但是,若轉換無法偵測到「星際大戰四部曲:曙光乍現」與「星際大戰:四部曲 ‒ 曙光乍現」相同,客戶一開始可能會感到困惑,但最後還是會了解到他們是相同的項目。這會是一項錯誤,但不會像先前的案例那樣不佳。

何時應著重在取回率

若您更擔心 FindMatches 轉換可能無法偵測到兩筆記錄實際上是相符項目的風險,建議您著重在取回率。若要著重在取回率,請選擇「較低」的精確度取回率取捨值。使用較低的值,FindMatches 轉換便需要較少證據來判斷兩筆記錄是否相符。轉換會調校成較傾向於將記錄視為相符。

例如,這可能會是安全組織的優先事項。假設您正在將客戶與已知詐騙犯的清單進行比對,此時判斷客戶是否為詐騙犯便非常重要。您正在使用 FindMatches 將詐騙犯清單和客戶清單進行比對。每次 FindMatches 在兩個清單間找到相符項目,便會指派一名稽核人員來驗證該客戶是否確實是詐騙犯。相較於精確度,您的組織可能會偏好選擇取回率。換句話說,您會寧願讓稽核人員手動檢閱並拒絕客戶並非詐騙犯時的一些案例,也不願意在識別確實位於詐騙犯清單上的客戶時失敗。

如何同時著重精確度和取回率

同時改善精確度和取回率的最佳方式是標記更多資料。隨著您標記更多資料,FindMatches 轉換的整體正確性便會獲得改善,進而同時改善精確度和取回率。但是,即使是使用最正確的轉換,仍然還是會有您必須實驗著重精確度或取回率,或是在這兩者之間選擇一個值的灰色地帶。