Amazon Machine Learning 重要概念 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Machine Learning 重要概念

本節概述下列重要概念,並詳細説明在 Amazon ML 中的使用方式:

  • 資料來源包含與 Amazon ML 輸入資料相關的中繼資料

  • ML 模型使用從輸入資料擷取的模式產生預測結果

  • 評估衡量 ML 模型的品質

  • 批次預測「非同步」產生多個輸入資料觀察的預測結果

  • 即時預測「同步」產生個別資料觀察的預測結果

資料來源

資料來源是一種物件,包含有關輸入資料的中繼資料。Amazon ML 會讀取您的輸入資料、運算屬性上的描述統計資料,並一併儲存統計資料與結構描述和其他資訊,做為資料來源物件的一部分。接下來,Amazon ML 會使用資料來源,以訓練和評估 ML 模型,並產生批次預測。

重要

資料來源不會存放輸入資料的副本。相反地,它會存放對於輸入資料所在的 Amazon S3 位置的參考。如果您移動或變更了 Amazon S3 檔案,Amazon ML 就無法存取或使用它們來建立 ML 模型、產生評估或產生預測。

下表定義與資料來源相關的術語。

期間 定義
屬性

觀察內唯一具名的屬性。在表格格式資料中,例如試算表或逗號分隔值 (CSV) 檔案,欄標題代表屬性,而列則包含各個屬性的值。

同義詞:變數、變數名稱、欄位、欄

資料來源名稱 (選用) 可讓您為資料來源定義人類可讀取的名稱。這些名稱可讓您在 Amazon ML 主控台中尋找和管理您的資料來源。
輸入資料 資料來源參考的所有觀察的集體名稱。
位置 輸入資料的位置。目前,Amazon ML 可以使用存放在 Amazon S3 儲存貯體、Amazon RedShift 資料庫或 Amazon Relational Database Service (RDS) 中 MySQL 資料庫的資料。
觀察

單一輸入資料單位。例如,如果您建立 ML 模型來偵測詐騙交易,您的輸入資料會包含許多觀察,每個觀察各代表一個個別交易。

同義詞:記錄、範例、執行個體、資料列

列 ID

(選用) 旗標,若指定則可在輸入資料中識別要包含在預測輸出中的屬性。此屬性可讓您更輕鬆地將哪個預測與哪個觀察建立關聯。

同義詞:資料列識別符

結構描述 解譯輸入資料所需的資訊,包括屬性名稱及其指派資料類型,還有特殊屬性的名稱。
統計資料

輸入資料中每個屬性的摘要統計資料。這些統計資料有兩個用途:

Amazon ML 主控台會以圖形顯示它們,協助您快速了解您的資料並識別不規則或錯誤之處。

Amazon ML 在訓練程序中會用來提升所產生 ML 模型的品質。

狀態 代表資料來源的目前狀態,例如,進行中已完成失敗
目標屬性

在訓練 ML 模型的環境中,目標屬性會識別輸入資料中屬性的名稱,其中包含目標屬性的「正確」答案。Amazon ML 會使用此項目來探索輸入資料中的模式,並產生 ML 模型。在評估並產生預測的環境中,目標屬性是由受過訓練的 ML 模型預測其值的屬性。

同義詞:目標

ML 模型

ML 模型是透過找出資料中的模式以產生預測的數學模型。Amazon ML 支援三種類型的 ML 模型:二元分類、多類別分類及回歸。

下表定義與 ML 模型相關的術語。

期間 定義
迴歸 訓練回歸 ML 模型的目標是預測數值。
多類別 訓練多類別 ML 模型的目標是預測屬於一組有限、預先定義之允許值的值。
二進位 訓練二元 ML 模型的目標是預測只能兩種狀態其中之一 (例如 true 或 false) 的值。
模型大小 ML 模型會擷取和存放模式。ML 模型存放的模式越多,該模型就會越大。ML 模型大小是以 MB 為單位。
通過次數 當您訓練 ML 模型,您使用來自資料來源的資料。有時候在學習過程中多次使用每個資料記錄會有好處。您讓 Amazon ML 使用相同資料記錄的次數稱為「通過次數」。
正規化 正規化是一種機器學習技術,您可用來取得更高品質的模型。Amazon ML 提供預設設定,適用於大部分的案例。

評估

評估會測量您 ML 模型的品質,並判斷其是否執行效果良好。

下表定義與評估相關的術語。

期間 定義
模型深入分析 Amazon ML 會提供您一個指標和許多洞見分析,您可用來評估模型的預測效能。
AUC ROC 曲線下面積 (AUC) 會測量模型對陽性範例相較於陰性範例預測出較高分數的二元 ML 能力。
巨集平均 F1 分數 巨集平均 F1 分數是用來評估多類別 ML 模型的預測效能。
RMSE 均方根誤差 (RMSE) 是一種指標,用來評估回歸 ML 模型的預測效能。
截止值 ML 模型的運作方法是產生數值預測分數。透過套用截止值,系統可將這些分數轉換為 0 和 1 標籤。
正確性 準確性測量正確預測的百分比。
精確度 精確度顯示實際陽性執行個體 (而不是偽陽性) 在已擷取的這些執行個體 (已預測為陽性) 之間所佔的百分比。換言之,選取的項目是多少是陽性?
取回 取回會顯示真實正確占相關執行個體總數的百分比 (真實正確)。換言之,已選取多少陽性項目?

批次預測

批次預測適用於可以同時一起執行的觀察組。這很適合沒有即時需求的預測分析。

下表定義與批次預測相關的術語。

期間 定義
輸出位置 存放在 S3 儲存貯體輸出位置的批次預測結果。
資訊清單檔案 此檔案將每個輸入資料檔案,與其相關聯的批次預測結果建立關係。其存放在 S3 儲存貯體輸出位置。

即時預測

即時預測適用於具有低延遲要求的應用程式,例如互動式 Web、行動或桌面應用程式。使用低延遲即時預測 API 可以查詢任何 ML 模型的預測。

下表定義與即時預測相關的術語。

期間 定義
即時預測 API 即時預測 API 接受要求承載中的單一輸入觀察,並在回應中傳回預測。
即時預測端點 若要使用 ML 模型搭配即時預測 API,您需要建立即時預測端點。建立後,端點包含 URL,您可以用來請求即時預測。