

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件可供現有使用者使用，但我們不再更新。如需詳細資訊，請參閱[什麼是 Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html)。

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 評估 ML 模型
<a name="evaluating_models"></a>

您應該持續*「評估模型」*以判斷其能否勝任預測新資料和未來資料的預測任務。由於未來的執行個體有不明目標值，您需要檢查 ML 模型對於您已知目標答案之資料的準確性指標，並使用此評估做為預測未來資料準確性的代理。

若要正確地評估模型，請從訓練資料來源取出已標示為目標 (基本事實) 的資料樣本。使用用於訓練的相同資料來評估 ML 模型的預測準確性並不適合，因為這樣是獎勵能「死記」訓練資料的模型，而非能從資料加以一般化的模型。您完成訓練 ML 模型後，您傳送已知目標值的保留觀察給模型。然後，比較 ML 模型傳回的預測結果和已知目標數值。最後，您運算摘要指標，告訴您預測和真實值的相符程度。

在 Amazon ML 中，您可以透過建立評估來*評估 ML *模型。若要建立 ML 模型的評估，您需要一個您想要評估的 ML 模型，您也需要未使用於訓練的標記資料。首先，使用保留資料建立 Amazon ML 資料來源來建立資料來源以供評估。用於評估的資料必須和用於訓練的資料具備相同的結構描述，並包含目標變數的實際值。

如果您的所有資料都位於單一檔案或目錄中，您可以使用 Amazon ML 主控台來分割資料。Create ML model (建立 ML 模型) 精靈中的預設路徑會分割輸入資料來源，並使用前 70% 做為訓練資料來源，其餘 30% 做為評估資料來源。Create ML model (建立 ML 模型) 精靈中的 **Custom** (自訂) 選項也可供您自訂分割比，您可以在此處隨機選取 70% 的樣本用於訓練，並將其餘 30% 用於評估。為了進一步指定自訂分割比，請使用[建立資料來源](https://docs.aws.amazon.com/machine-learning/latest/APIReference/API_CreateDataSourceFromS3.html) API 中的資料重新安排字串。擁有評估資料來源和 ML 模型後，您可以建立評估並檢閱評估的結果。

**Topics**
+ [ML 模型深入分析](ml-model-insights.md)
+ [二元模型的深入解析](binary-model-insights.md)
+ [多類別模型深入分析](multiclass-model-insights.md)
+ [迴歸模型的深入解析](regression-model-insights.md)
+ [防止過度擬合](#overfitting)
+ [交叉驗證](cross-validation.md)
+ [評估提醒](evaluation-alerts.md)

## 防止過度擬合
<a name="overfitting"></a>

建立和訓練 ML 模型時，目標是選擇可進行最佳預測的模型，這表示選擇具有最佳設定 (ML 模型設定或超級參數) 的模式。在 Amazon Machine Learning 中，您可以設定四個超參數：通過次數、正規化、模型大小和隨機類型。不過，如果您選擇會對評估資料產生「最佳」預測效能的模型參數設定，您可能會過度擬合模型。當模型記住訓練和評估資料來源中發生的模式，但無法一般化資料中的模式，就會發生過度擬合。它通常發生在訓練資料包含用於評估的所有資料。過度擬合的模型在評估期間表現良好，但無法對未知資料進行準確的預測。

為了避免選取過度擬合的模型做為最佳模型，您可以保留額外的資料來驗證 ML 模型的效能。例如，您可以將您的資料分為 60% 用於訓練、20% 用於評估，其他 20% 用於驗證。在選擇很適合執行評估資料的模型參數後，您須使用驗證資料執行第二個評估，以查看 ML 模型對於驗證資料的執行效能。如果模型在驗證資料上符合您的期望，就表示模型未過度擬合資料。

使用第三組資料進行驗證，可協助您選擇適當的 ML 模型參數以防止過度擬合。不過，從訓練程序提取用於評估和驗證的資料，會讓可用於訓練的資料變得更少。這是小型資料集要特別留意的問題，因為能用於訓練的資料總是越多越好。若要解決這個問題，您可以執行交叉驗證。如需交叉驗證的詳細資訊，請參閱[交叉驗證](cross-validation.md)。