定義訓練指標

焦點模式

定義訓練指標 - Amazon SageMaker AI

使用 SageMaker AI Python SDK 定義指標使用 SageMaker AI 主控台定義指標使用低階 SageMaker AI API 定義指標

SageMaker AI 會自動剖析訓練任務日誌，並將訓練指標傳送至 CloudWatch。根據預設，SageMaker AI 會傳送 SageMaker AI 任務和端點指標中列出的系統資源使用率指標。如果您希望 SageMaker AI 剖析日誌，並將自訂指標從自己的演算法訓練任務傳送至 CloudWatch，則需要在設定 SageMaker AI 訓練任務請求時傳遞指標名稱和規則表達式來指定指標定義。

您可以使用 SageMaker AI 主控台、SageMaker AI Python SDK 或低階 SageMaker AI API 指定要追蹤的指標。

如果您使用自己的演算法，請執行下列動作：

確保演算法將您想要擷取的指標撰寫到日誌。
定義規則表達式，以便準確搜尋日誌來擷取您想要傳送至 CloudWatch 的指標值。

例如，假設您的演算法發出下列訓練錯誤和驗證錯誤的指標：


Train_error=0.138318;  Valid_error=0.324557;

如果您想要在 CloudWatch 中監控這兩個指標，指標定義的字典看起來應該如下列範例所示：


[
    {
        "Name": "train:error",
        "Regex": "Train_error=(.*?);"
    },
    {
        "Name": "validation:error",
        "Regex": "Valid_error=(.*?);"
    }    
]

在上述範例定義的 train:error 指標 regex 中，regex 的第一部分會尋找確切文字 "Train_error="，而表達式 (.*?); 會擷取第一個分號字元前顯示的任何字元。在這個表達式中，括號告知 regex 擷取其內部內容、. 代表任何字元、* 代表零個或多個，而 ? 代表僅擷取第一個 ; 字元執行個體之前的內容。

使用 SageMaker AI Python SDK 定義指標

當您初始化 Estimator 物件時，可透過 metric_definitions 引數形式指定指標名稱和規則表達式的清單，以定義您想要傳送至 CloudWatch 的指標。例如，如果您想要在 CloudWatch 中監控 train:error 和 validation:error 這兩個指標，您的 Estimator 初始化將如下列範例所示：


import sagemaker
from sagemaker.estimator import Estimator

estimator = Estimator(
    image_uri="your-own-image-uri",
    role=sagemaker.get_execution_role(), 
    sagemaker_session=sagemaker.Session(),
    instance_count=1,
    instance_type='ml.c4.xlarge',
    metric_definitions=[
       {'Name': 'train:error', 'Regex': 'Train_error=(.*?);'},
       {'Name': 'validation:error', 'Regex': 'Valid_error=(.*?);'}
    ]
)

如需使用 Amazon SageMaker Python SDK估算器進行訓練的更多相關資訊，請參閱 GitHub 上的 SageMaker Python SDK。

使用 SageMaker AI 主控台定義指標

如果您在建立訓練任務時，在 SageMaker AI 主控台中選擇在 ECR 中您自己的演算法容器選項做為演算法來源，請在指標區段中新增指標定義。下列螢幕擷取畫面顯示新增範例指標名稱和對應的規則表達式後應呈現的樣子。

使用低階 SageMaker AI API 定義指標

在您傳遞至 CreateTrainingJob 操作之 AlgorithmSpecification 輸入參數的 MetricDefinitions 欄位中，指定指標名稱清單和規則表達式，以定義您想要傳送到 CloudWatch 的指標。例如，如果您想要在 CloudWatch 中監控 train:error 和 validation:error 這兩個指標，您的 AlgorithmSpecification 將如下列範例所示：


"AlgorithmSpecification": {
    "TrainingImage": your-own-image-uri,
    "TrainingInputMode": "File",
    "MetricDefinitions" : [
        {
            "Name": "train:error",
            "Regex": "Train_error=(.*?);"
        },
        {
            "Name": "validation:error",
            "Regex": "Valid_error=(.*?);"
        }
    ]
}

如需使用低階 SageMaker AI API 定義和執行訓練任務的詳細資訊，請參閱 CreateTrainingJob。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

訓練任務的 CloudWatch 指標

檢視訓練任務指標

在本頁面

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

定義訓練指標

使用 SageMaker AI Python SDK 定義指標

使用 SageMaker AI 主控台定義指標

使用低階 SageMaker AI API 定義指標

在本頁面

Related resources

此頁面是否有幫助？

Related resources

下一個主題：

上一個主題：

需要協助？

主控台中的範例演算法選項表單。