本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
指標參考
以下各節說明每個模型類型在 Amazon SageMaker Canvas 中可用的指標。
數值預測的指標
下列清單定義 SageMaker Canvas 中數值預測的指標,並為您提供如何使用它們的資訊。
-
InferenceLatency – 從請求模型預測到從部署模型的即時端點接收模型的大約時間。此指標的測量單位為秒,且僅適用於使用 Ensembling 模式建置的模型。
-
MAE – 平均絕對錯誤。平均而言,目標欄的預測是實際值的 +/- {MAE}。
測量預測值和實際值在所有值上進行平均時的差異。 MAE 常用於數值預測,以了解模型預測錯誤。如果預測是線性的, MAE代表從預測線到實際值的平均距離。 MAE 定義為絕對錯誤的總和除以觀察次數。其數值範圍從 0 到無限大,數字越小,表示模型越適合資料。
-
MAPE – 平均絕對百分比錯誤。平均而言,目標欄的預測與實際值相差 +/- {MAPE} %。
MAPE 是實際值與預測或預估值之間的絕對差異平均值,除以實際值並以百分比表示。較低的 MAPE表示更好的效能,因為它表示預測或估計的值更接近實際值。
-
MSE – 平均平方誤差,或預測值和實際值之間的平方差異平均值。
MSE 值一律為正數。模型在預測實際值時越好,MSE值越小。
-
R2 - 目標欄中的差異百分比,可由輸入目標欄說明。
量化模型可以解釋相依變數差異的程度。數值的範圍從一 (1) 到負一 (-1)。數字越大表示解釋變異性的比例越高。接近零 (0) 的值表示模型可以解釋極少的相依變數。負值表示擬合度不佳,且模型的效能優於常數函數 (或水平線)。
-
RMSE – 根平均平方錯誤,或錯誤的標準差。
測量預測值和實際值之間的平方差異的平方根,並對所有值進行平均。它用於了解模型預測錯誤,並且是表示存在大型模型錯誤和極端值的重要指標。值範圍從零 (0) 到無限,數字越小,表示更符合資料的模型。 RMSE 取決於規模,不應用於比較不同類型的資料集。
類別預測的指標
本節定義 SageMaker Canvas 中分類預測的指標,並為您提供如何使用它們的資訊。
以下是 2 類別預測的可用指標清單:
-
準確性 - 正確預測的百分比。
或者,正確預測項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美準確度,0 表示完整不正確。
-
AUC – 介於 0 和 1 之間的值,指出模型在資料集中分隔類別的能力。值 1 表示它能夠完美地分隔類別。
-
BalancedAccuracy – 測量準確預測與所有預測的比率。
這個比率是把真陽性 (TP) 和真陰性 (TN),按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。其定義如下:
0.5*((TP/P)+(TN/N))
,其值範圍介於 0 到 1 之間。當不平衡的資料集中的正負數彼此大不相同時,例如只有 1% 的電子郵件是垃圾郵件時,平衡的準確性指標可提供更好的準確度測量。 -
F1 - 準確度的平衡衡量,其會考慮類別平衡。
這是精確度和召回分數的諧波平均值,定義如下:
F1 = 2 * (precision * recall) / (precision + recall)
。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限,0 表示最差。 -
InferenceLatency – 從請求模型預測到從部署模型的即時端點接收模型的大約時間。此指標的測量單位為秒,僅適用於使用 Ensembling 模式建置的模型。
-
LogLoss – 日誌遺失,也稱為跨熵遺失,是用來評估機率輸出品質的指標,而不是輸出本身。對數損失是一項重要指標,能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0,代表完美預測資料的模型。
-
精確度 – 在預測 {category x} 的所有時間內,預測在 {precision}% 的時間內是正確的。
精確度衡量演算法在所有找到的陽性結果中,預測出真陽性 (TP) 的成效。其定義如下:
Precision = TP/(TP+FP)
,其值範圍從零 (0) 到一 (1)。當假陽性的成本高時,精確度是一個重要的指標。舉例來說,一個飛機安全系統被錯誤地判定為可安全飛行,這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。 -
召回:當 {target_column} 實際為 {category x} 時,模型正確預測 {recall}% 為 {category x}。
召回率衡量演算法在資料集內,正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測,同時也是資料中的實際陽性。召回的定義如下:
Recall = TP/(TP+FN)
,值範圍從 0 到 1。分數越高,代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意,通常不足以僅測量召回,因為將每個輸出預測為真陽性會產生完美的召回分數。
以下是 3+ 類別預測的可用指標清單:
-
準確性 - 正確預測的百分比。
或者,正確預測項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美準確度,0 表示完全不正確。
-
BalancedAccuracy – 測量準確預測與所有預測的比率。
這個比率是把真陽性 (TP) 和真陰性 (TN),按照陽性 (P) 和陰性 (N) 的總數標準化之後計算出來的。其定義如下:
0.5*((TP/P)+(TN/N))
,其值範圍介於 0 到 1 之間。當不平衡的資料集中的正負數彼此大不相同時,例如只有 1% 的電子郵件是垃圾郵件時,平衡的準確性指標可提供更好的準確度測量。 -
F1macro – F1macro 分數會透過計算精確度和召回來套用 F1 分數,然後測量其諧波平均值來計算每個類別的 F1 分數。然後,F1macro 會平均個別分數以取得 F1macro 分數。F1macro 分數介於 0 和 1 之間。評分 1 表示效能已達可能性的上限,0 表示最差。
-
InferenceLatency – 從請求模型預測到從部署模型的即時端點接收模型的大約時間。此指標的測量單位為秒,僅適用於使用 Ensembling 模式建置的模型。
-
LogLoss – 日誌遺失,也稱為跨熵遺失,是用來評估機率輸出品質的指標,而不是輸出本身。對數損失是一項重要指標,能指出模型何時有高機率發生錯誤預測。其數值介於 0 到無限大之間。如數值為 0,代表完美預測資料的模型。
-
PrecisionMacro – 透過計算每個類別的精確度和平均分數來測量精確度,以取得數個類別的精確度。分數範圍從零 (0) 到一 (1)。分數高表示這個模型在所有找到的陽性結果中,預測出真陽性 (TP) 的成效顯著,而且是在好幾個類別裡平均算出來的。
-
RecallMacro – 透過計算每個類別的召回和平均分數來測量召回,以取得數個類別的召回。分數範圍從 0 到 1。分數越高,就表示這模型預測出資料集裡的真陽性 (TP) 能力越強。真陽性指的是其預測是陽性,而在資料裡實際上也是陽性。通常只測量召回率是不夠的, 因為只要預測每個輸出都是真陽性,就能獲得完美的召回率分數。
請注意,對於 3+ 類別預測,您也會收到平均 F1、準確性、精確度和召回指標。這些指標的分數只是所有類別的平均指標分數。
影像和文字預測的指標
以下是影像預測和文字預測的可用指標清單。
-
準確性 - 正確預測的百分比。
或者,正確預測的項目數量與預測總數的比率。準確性衡量預測的類別值與實際值的接近程度。準確性指標的值在零 (0) 和一 (1) 之間變化。值 1 表示完美準確度,0 表示完全不正確。
-
F1 - 準確度的平衡衡量,其會考慮類別平衡。
這是精確度和召回分數的諧波平均值,定義如下:
F1 = 2 * (precision * recall) / (precision + recall)
。F1 評分在 0 和 1 之間變化。評分 1 表示效能已達可能性的上限,0 表示最差。 -
精確度 – 在預測 {category x} 的所有時間內,預測在 {precision}% 的時間內都是正確的。
精確度衡量演算法在所有找到的陽性結果中,預測出真陽性 (TP) 的成效。其定義如下:
Precision = TP/(TP+FP)
,值範圍從零 (0) 到一 (1)。當假陽性的成本高時,精確度是一個重要的指標。舉例來說,一個飛機安全系統被錯誤地判定為可安全飛行,這個假陽性的成本就非常高。假陽性 (FP) 反映了資料中實際上是陰性的陽性預測。 -
召回:當 {target_column} 實際上是 {category x} 時,模型正確預測 {recall}% 為 {category x}。
召回率衡量演算法在資料集內,正確預測所有的真陽性 (TP) 的表現。真陽性代表其為一個陽性預測,同時也是資料中的實際陽性。召回的定義如下:
Recall = TP/(TP+FN)
,其值範圍介於 0 到 1 之間。分數越高,代表模型在資料中預測出真陽性 (TP) 的能力越好。請注意,通常不足以僅測量召回,因為將每個輸出預測為真陽性會產生完美的召回分數。
請注意,對於預測 3 個或更多類別的影像和文字預測模型,您也會收到平均 F1、準確性、精確度和召回指標。這些指標的分數只是所有類別的指標分數平均值。
時間序列預測的指標
以下定義了 Amazon SageMaker Canvas 中時間序列預測的進階指標,並為您提供如何使用它們的資訊。
-
平均加權分位數損失 (WQL) - 透過平均 P10、P50 和 P90 分位數的準確度來評估預測。較低的值表示較精確的模型。
-
加權絕對百分比錯誤 (WAPE) – 由絕對目標的總和標準化的絕對錯誤總和,可測量預測值與觀察值的整體偏差。較低的值表示更準確的模型,其中 WAPE = 0 是沒有錯誤的模型。
-
Root Mean Square Error (RMSE) – 平均平方錯誤的平方根。較低的 RMSE表示更準確的模型,其中 RMSE = 0 是沒有錯誤的模型。
-
平均絕對百分比錯誤 (MAPE) – 在所有時間點平均的百分比錯誤 (平均預測值與實際值的百分比差異)。較低的值表示更準確的模型,其中 MAPE = 0 是沒有錯誤的模型。
-
平均絕對縮放錯誤 (MASE) – 由簡單基準預測方法的平均絕對錯誤標準化的預測平均絕對錯誤。較低的值表示更準確的模型,其中 MASE < 1 估計比基準更好,MASE> 1 估計比基準更差。