在正確性和成本之間進行選擇 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在正確性和成本之間進行選擇

每個 FindMatches 轉換都包含 accuracy-cost 參數。您可以使用此參數來指定以下其中一個項目:

  • 若您更希望轉換能夠正確地報告兩個記錄相符,建議您強調「正確性」

  • 若您更擔心執行轉換的成本或速度,建議您強調「較低成本」

您可以在 AWS Glue 主控台上進行這項取捨,或是使用 AWS Glue 機器學習 API 操作。

何時應著重在正確性

若您更擔心 find matches 結果不包含任何相符項目的風險,建議您著重在正確性。若要著重在正確性,請選擇「較高」的正確性成本取捨值。使用較高的值,FindMatches 轉換便需要更多時間執行更完整的搜尋,以正確地取得相符記錄。請注意,此參數不會讓錯誤地將不相符兩筆記錄視為相符項目的機率降低。轉換會調校成傾向花費更多時間尋找相符項目。

何時應著重在成本

若您更擔心執行 find matches 轉換的成本,而非找到多少相符項目,建議您著重在成本。若要著重在成本,請選擇「較低」的正確性成本取捨值。使用較低的值,FindMatches 轉換執行時需要的資源便會更少。轉換會調校成傾向尋找較少相符項目。若您可以接受著重在較低成本時的結果,請使用此設定。

如何同時著重正確性及較低成本

檢查更多筆記錄來判斷他們是否為相符項目時,會需要更多的電腦處理時間。若您希望減少成本,卻又不想犧牲品質,以下是一些您可以採取的步驟:

  • 消除資料來源中您不在乎是否相符的記錄。

  • 從資料來源中消除您確定在判斷相符/不相符時實用性不高的資料行。一個良好的判斷方式便是消除您認為不會在您決定一組記錄是否為「相同」記錄時影響您決策的資料行。