自訂實體辨識器指標 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂實體辨識器指標

Amazon Comprehend 為您提供指標,協助您估計實體辨識器在您的工作上應如何運作。它們是以訓練辨識器模型為基礎,因此雖然它們在訓練期間準確地表示模型的效能,但它們只是實體探索期間 API 效能的近似值。

只要傳回經過訓練的實體辨識器的中繼資料,就會傳回指標。

亞馬遜支援一次訓練多達 25 個實體的模型。從訓練過的實體辨識器傳回指標時,系統會針對辨識器整體 (全域量度) 和每個個別實體 (實體量度) 計算分數。

有三種量度可供使用,包括全域和實體量度:

  • 精準度

    這表示系統產生的圖元已正確識別並正確標示的部分。這顯示了模型的實體識別是真正良好的識別的次數。它是識別總數的百分比。

    換句話說,精度是基於真正陽性(TP)誤報(fp),它被計算為精度 = TP/(TP + FP)。

    例如,如果一個模型預測實體的兩個例子存在於一個文件中,其中實際上只有一個,結果是一個真正的正值和一個假陽性。在這種情況下,精度 = 1/(1 + 1)。精度為 50%,因為在模型所識別的兩個圖元中,有一個圖元正確。

  • 召回

    這表示存在於由系統正確識別和標記的文件中實體的分數。在數學上,這是根據正確識別真正數(tp)和錯過標識虛假陰性(fn)的總數來定義。

    它被計算為召回 = TP/(TP + FN)。例如,如果模型正確地識別了一個實體,但遺漏了存在該實體的其他兩個實例,則結果為一個真正的正值和兩個假負數。在這種情況下,召回 = 1/(1 + 2)。召回的是 33.33%,因為一個實體在可能的三個例子中是正確的。

  • F1 得分

    這是「精確度」和「召回」量度的組合,用於測量自訂實體辨識模型的整體精確度。F1 分數是「精確度」和「召回」量度的諧波平均值:F1 = 2 * 精確度 * 召回/(精確度 + 回收)

    注意

    直覺上,諧波平均值比簡單的平均值或其他方式更加懲罰極端(例如:precision= 0,recall= 1 可以通過預測所有可能的跨度來輕鬆實現。 在這裡,簡單的平均值將是 0.5,但F1會將其懲罰為 0)。

    在上述範例中,precision= 50% 和recall等於 33.33%,因此 F1 = 2 * 0.5 * 0.3333/(0.5 + 0.3333)。一級方案的得分是 .3975 或 39.75%。

全域和個別實體量度

針對點或個的實體分析下列句子時,可以看到全域和個別實體量度之間的關係

John Washington and his friend Smith live in San Francisco, work in San Diego, and own a house in Seattle.

在我們的例子中,該模型進行了以下預測。

John Washington = Person Smith = Place San Francisco = Place San Diego = Place Seattle = Person

但是,預測應該是以下幾點。

John Washington = Person Smith = Person San Francisco = Place San Diego = Place Seattle = Place

此項目的個別實體指標為:

entity: Person True positive (TP) = 1 (because John Washington is correctly predicted to be a Person). False positive (FP) = 1 (because Seattle is incorrectly predicted to be a Person, but is actually a Place). False negative (FN) = 1 (because Smith is incorrectly predicted to be a Place, but is actually a Person). Precision = 1 / (1 + 1) = 0.5 or 50% Recall = 1 / (1+1) = 0.5 or 50% F1 Score = 2 * 0.5 * 0.5 / (0.5 + 0.5) = 0.5 or 50% entity: Place TP = 2 (because San Francisco and San Diego are each correctly predicted to be a Place). FP = 1 (because Smith is incorrectly predicted to be a Place, but is actually a Person). FN = 1 (because Seattle is incorrectly predicted to be a Person, but is actually a Place). Precision = 2 / (2+1) = 0.6667 or 66.67% Recall = 2 / (2+1) = 0.6667 or 66.67% F1 Score = 2 * 0.6667 * 0.6667 / (0.6667 + 0.6667) = 0.6667 or 66.67%

這個全局指標將是:

全球:

Global: TP = 3 (because John Washington, San Francisco and San Diego are predicted correctly. This is also the sum of all individual entity TP). FP = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This is the sum of all individual entity FP). FN = 2 (because Seattle is predicted as Person and Smith is predicted as Place. This is the sum of all individual FN). Global Precision = 3 / (3+2) = 0.6 or 60% (Global Precision = Global TP / (Global TP + Global FP)) Global Recall = 3 / (3+2) = 0.6 or 60% (Global Recall = Global TP / (Global TP + Global FN)) Global F1Score = 2 * 0.6 * 0.6 / (0.6 + 0.6) = 0.6 or 60% (Global F1Score = 2 * Global Precision * Global Recall / (Global Precision + Global Recall))

改善自訂實體辨識器效能

這些指標可讓您深入瞭解訓練過的模型在您使用模型識別實體時執行的準確程度。如果指標低於預期,您可以使用以下幾個選項來改善指標:

  1. 根據您是否使用註釋實體清單 (僅限純文字),請務必遵循相應文件中的準則,以改善資料品質。如果您在改善資料並重新訓練模型之後觀察到更好的指標,您可以持續反覆運算並改善資料品質,以達到更好的模型效能。

  2. 如果您正在使用「實體清單」,請考慮改用註釋。手動註釋通常可以改善您的結果。

  3. 如果您確定沒有數據質量問題,但指標仍然不合理地低,請提交支持請求。