Amazon Machine Learning 關鍵概念

本節摘要說明下列重要概念，並更詳細地說明在 Amazon ML 中的使用方式：

資料來源包含與 Amazon ML 資料輸入相關聯的中繼資料
ML 模型使用從輸入資料擷取的模式產生預測結果
評估衡量 ML 模型的品質
批次預測「非同步」產生多個輸入資料觀察的預測結果
即時預測「同步」產生個別資料觀察的預測結果

資料來源

資料來源是包含輸入資料中繼資料的物件。Amazon ML 會讀取您的輸入資料、計算其屬性的描述性統計資料，並將統計資料與結構描述和其他資訊一起存放，做為資料來源物件的一部分。接下來，Amazon ML 會使用資料來源來訓練和評估 ML 模型，並產生批次預測。

重要

資料來源不會存放輸入資料的副本。相反地，它會存放對於輸入資料所在的 Amazon S3 位置的參考。如果您移動或變更 Amazon S3 檔案，Amazon ML 無法存取或使用它來建立 ML 模型、產生評估或產生預測。

下表定義與資料來源相關的術語。

期間	定義
屬性	觀察內唯一具名的屬性。在表格格式資料中，例如試算表或逗號分隔值 (CSV) 檔案，欄標題代表屬性，而列則包含各個屬性的值。同義詞：變數、變數名稱、欄位、欄
資料來源名稱	(選用) 可讓您為資料來源定義人類可讀取的名稱。這些名稱可讓您在 Amazon ML 主控台中尋找和管理資料來源。
輸入資料	資料來源參考的所有觀察的集體名稱。
位置	輸入資料的位置。目前，Amazon ML 可以使用存放在 Amazon S3 儲存貯體、Amazon Redshift 資料庫或 Amazon Relational Database Service (RDS) 中的 MySQL 資料庫內的資料。
觀察	單一輸入資料單位。例如，如果您建立 ML 模型來偵測詐騙交易，您的輸入資料會包含許多觀察，每個觀察各代表一個個別交易。同義詞：記錄、範例、執行個體、資料列
列 ID	(選用) 旗標，若指定則可在輸入資料中識別要包含在預測輸出中的屬性。此屬性可讓您更輕鬆地將哪個預測與哪個觀察建立關聯。同義詞：資料列識別符
結構描述	解譯輸入資料所需的資訊，包括屬性名稱及其指派資料類型，還有特殊屬性的名稱。
統計資料	輸入資料中每個屬性的摘要統計資料。這些統計資料有兩個用途： Amazon ML 主控台會以圖形顯示它們，協助您at-a-glance地了解您的資料，並識別異常或錯誤。 Amazon ML 會在訓練過程中使用這些項目來改善產生的 ML 模型品質。
Status	代表資料來源的目前狀態，例如，進行中、已完成或失敗。
目標屬性	在訓練 ML 模型的情況下，目標屬性會在包含「正確」答案的輸入資料中識別屬性的名稱。Amazon ML 使用此功能來探索輸入資料中的模式，並產生 ML 模型。在評估並產生預測的環境中，目標屬性是由受過訓練的 ML 模型預測其值的屬性。同義詞：目標

ML 模型

ML 模型是一種數學模型，可透過尋找資料中的模式來產生預測。Amazon ML 支援三種類型的 ML 模型：二進位分類、多類別分類和迴歸。

下表定義與 ML 模型相關的術語。

期間	定義
迴歸	訓練回歸 ML 模型的目標是預測數值。
多類別	訓練多類別 ML 模型的目標是預測屬於一組有限、預先定義之允許值的值。
二進位	訓練二元 ML 模型的目標是預測只能兩種狀態其中之一 (例如 true 或 false) 的值。
模型大小	ML 模型會擷取和存放模式。ML 模型存放的模式越多，該模型就會越大。ML 模型大小是以 MB 為單位。
通過次數	當您訓練 ML 模型，您使用來自資料來源的資料。有時候在學習過程中多次使用每個資料記錄會有好處。您讓 Amazon ML 使用相同資料記錄的次數稱為傳遞次數。
正規化	正規化是一種機器學習技術，可用來取得更高品質的模型。Amazon ML 提供預設設定，適用於大多數情況。

評估

評估會測量您 ML 模型的品質，並判斷其是否執行效果良好。

下表定義與評估相關的術語。

期間	定義
模型深入分析	Amazon ML 為您提供指標和一些洞見，可用於評估模型的預測效能。
AUC	ROC 曲線下面積 (AUC) 會測量模型對陽性範例相較於陰性範例預測出較高分數的二元 ML 能力。
巨集平均 F1 分數	巨集平均 F1 分數是用來評估多類別 ML 模型的預測效能。
RMSE	均方根誤差 (RMSE) 是一種指標，用來評估回歸 ML 模型的預測效能。
截止值	ML 模型的運作方法是產生數值預測分數。透過套用截止值，系統可將這些分數轉換為 0 和 1 標籤。
準確性	準確性測量正確預測的百分比。
精確度	精確度顯示實際陽性執行個體 (而不是偽陽性) 在已擷取的這些執行個體 (已預測為陽性) 之間所佔的百分比。換言之，選取的項目是多少是陽性？
取回	取回會顯示真實正確占相關執行個體總數的百分比 (真實正確)。換言之，已選取多少陽性項目？

批次預測

批次預測適用於可以同時一起執行的觀察組。這很適合沒有即時需求的預測分析。

下表定義與批次預測相關的術語。

期間	定義
輸出位置	存放在 S3 儲存貯體輸出位置的批次預測結果。
資訊清單檔案	此檔案將每個輸入資料檔案，與其相關聯的批次預測結果建立關係。其存放在 S3 儲存貯體輸出位置。

即時預測

即時預測適用於具有低延遲要求的應用程式，例如互動式 Web、行動或桌面應用程式。使用低延遲即時預測 API 可以查詢任何 ML 模型的預測。

下表定義與即時預測相關的術語。

期間	定義
即時預測 API	即時預測 API 接受要求承載中的單一輸入觀察，並在回應中傳回預測。
即時預測端點	若要使用 ML 模型搭配即時預測 API，您需要建立即時預測端點。建立後，端點包含 URL，您可以用來請求即時預測。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

什麼是 Amazon Machine Learning？

存取 Amazon Machine Learning