用於評估模型的指標 - Rekognition

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於評估模型的指標

模型完成訓練後,Amazon Rekognition 自訂標籤會傳回模型測試的指標,您可將其用於評估模型的效能。本主題會說明您可以使用的指標,以及如何了解訓練過的模型是否成效良好。

Amazon Rekognition 自訂標籤主控台提供下列指標作為訓練結果摘要以及每個標籤的指標:

我們提供的每個指標都是常用於評估機器學習模型效能的指標。Amazon Rekognition 自訂標籤會傳回整個測試資料集的測試結果指標,以及每個自訂標籤的指標。您也可以針對測試資料集中的每個影像檢閱訓練過的自訂模型效能。如需詳細資訊,請參閱存取評估指標 (主控台)

評估模型效能

在測試期間,Amazon Rekognition 自訂標籤會預測測試影像是否包含自訂標籤。可信度分數是量化模型預測確實性的值。

如果自訂標籤的可信度分數超過閾值,則模型輸出會包含此標籤。預測可以透過下列方式進行分類:

  • 相符 — Amazon Rekognition 自訂標籤模型會正確地預測出測試影像中存在自訂標籤。也就是說,預測的標籤也會是該影像的「Ground Truth」標籤。例如,當影像中存在足球時,Amazon Rekognition 自訂標籤即會正確地傳回足球標籤。

  • 誤報 — Amazon Rekognition 自訂標籤模型會錯誤地預測出測試影像中存在自訂標籤。也就是說,預測的標籤不是影像的 Ground Truth 標籤。例如,Amazon Rekognition 自訂標籤會傳回足球標籤,但該影像的 Ground Truth 中卻沒有足球標籤。

  • 漏報 — Amazon Rekognition 自訂標籤模型未預測出影像中存在自訂標籤,但該影像的「Ground Truth」包含此標籤。例如,Amazon Rekognition 自訂標籤不會針對包含足球的影像傳回「足球」自訂標籤。

  • 不相符 — Amazon Rekognition 自訂標籤模型會正確地預測出測試影像中不存在自訂標籤。例如,Amazon Rekognition 自訂標籤不會針對不包含足球的影像傳回足球標籤。

主控台會提供對測試資料集中每個影像的相符、不相符和漏報值的存取。如需詳細資訊,請參閱存取評估指標 (主控台)

這些預測結果會用於計算每個標籤的下列指標,以及整個測試集的彙總。相同的定義適用於模型在週框方塊層級所做的預測,區別在於所有指標都會在每個測試影像中的每個週框方塊 (預測或 Ground Truth) 上面計算。

聯集上的交集 (IoU) 和物件偵測

聯集上的交集 (IoU) 會測量兩個物件週框方塊在其組合區域上重疊的百分比。範圍為 0 (最低重疊) 到 1 (完全重疊)。在測試期間,當 Ground Truth 週框方塊和預測週框方塊的 IoU 至少為 0.5 時,預測的週框方塊即正確。

假設閾值

Amazon Rekognition 自訂標籤會自動計算每個自訂標籤的假設閥值 (0-1)。您無法設定自訂標籤的假設閾值。就每個標籤的假設閥值的值而言,預測若高於該值,即會被計為相符或誤報。該值會根據您的測試資料集設定。假設閥值會根據模型訓練期間在測試資料集上達到的最佳 F1 分數來計算。

您可以從模型的培訓結果中取得標籤的假定臨界值。如需詳細資訊,請參閱存取評估指標 (主控台)

對假設閥值的變更通常會用於提升型的精確度和取回率。如需詳細資訊,請參閱改善 Amazon Rekognition 自訂標籤模型。由於您無法針對標籤設定模型的假設閾值,因此可以透過分析具有 DetectCustomLabels 的影像並指定 MinConfidence 輸入參數來實現相同的結果。如需詳細資訊,請參閱使用經過培訓的模型分析圖像

精確度

Amazon Rekognition 自訂標籤可提供每個標籤的精確度指標,以及整個測試資料集的平均精確度指標。

精確度指在個別標籤的假設閾值下,正確預測 (相符) 佔所有模型預測 (相符和誤報) 的比例。隨著閥值的增加,模型可能會進行較少的預測。但是,一般而言,與較低的閾值相比,其相符率會高於誤報率。精確度的可能值範圍為 0 到 1,而較高的值即表示較高的精確度。

例如,當模型預測影像中存在足球時,該預測正確的機率有多高? 假設影像中有 8 顆足球和 5 塊岩石。如果模型的預測為 9 顆足球:8 個正確預測和 1 個誤報,則此範例的精確度為 0.89。但是,如果模型的預測為影像中有 13 顆足球,即為 8 個正確預測和 5 個不正確,則產生的精確度較低。

如需詳細資訊,請參閱精確度和取回率

取回

Amazon Rekognition 自訂標籤可提供每個標籤的平均取回指標,以及整個測試資料集的平均取回指標。

取回率指在假設閾值之上,正確預測出的測試集標籤比例。這會測量模型在自訂標籤實際出現在測試集影像中時可正確預測自訂標籤的機率。取回率的範圍為 0 到 1。值越高,即表示取回率越高。

例如,如果影像包含 8 顆足球,其中有多少個會正確偵測出來? 在此範例中,影像有 8 顆足球和 5 塊岩石,如果模型偵測到 5 顆足球,則取回值為 0.62。如果在重新訓練後,新模型偵測到 9 顆足球,包括影像中存在的所有 8 顆球,則取回值為 1.0。

如需詳細資訊,請參閱精確度和取回率

F1

Amazon Rekognition 自訂標籤會使用 F1 分數指標來測量每個標籤的平均模型效能,以及整個測試資料集的平均模型效能。

模型效能是一種彙總指標,會將所有標籤的精確度和取回率納入考量。(例如 F1 分數或平均精確度)。模型效能分數是介於 0 到 1 之間的值。值越高,模型在取回率和精確度方面的成效就越好。具體而言,分類工作的模型效能通常會以 F1 分數來測量。該分數是在假設閾值下精確度和取回分數的調和平均值。例如,對於精確度為 0.9 且取回率為 1.0 的模型,F1 分數為 0.947。

F1 分數的值如果高,即表示模型在精確度和召回率方面都表現良好。如果模型的成效不佳,例如,具有 0.30 的低精確度以及 1.0 的高取回率,則 F1 分數為 0.46。同樣,如果精確度很高 (0.95) 且取回率低 (0.20),則 F1 分數為 0.33。在這兩種情況下,F1 分數都很低,且表示模型出現問題。

如需詳細資訊,請參閱 F1 分數

使用指標

針對您已訓練的特定模型,並依據您的應用程式而定,您可以使用至 DetectCustomLabelsMinConfidence 輸入參數在精確度取回率之間進行取捨。MinConfidence 值較高時,您通常會取得較高的精確度 (更正確的足球預測),但取回率會較低 (會錯過較多實際的足球數)。MinConfidence 的值較低時,您會取得較高的取回率 (正確預測出更多實際的足球數),但精確度較低 (這些預測的錯誤較多)。如需詳細資訊,請參閱使用經過培訓的模型分析圖像

如果需要,這些指標也會告知您可採取來提升模型效能的步驟。如需詳細資訊,請參閱改善 Amazon Rekognition 自訂標籤模型

注意

DetectCustomLabels 會傳回範圍從 0 到 100 的預測值,這些預測值會對應 0 到 1 的指標範圍。