步驟 2:建立訓練資料來源 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 2:建立訓練資料來源

在您上傳banking.csv資料集添加到 Amazon Simple Storage Service (Amazon S3) 位置,您要用該資料集建立訓練資料來源。資料來源是 Amazon Machine Learning (Amazon ML) 物件,內含您輸入資料的位置和輸入資料之相關中繼資料的位置。Amazon ML 會使用資料來源進行 ML 模型訓練和評估之類的操作。

若要建立資料來源,請提供下列項目:

  • 您資料的 Amazon S3 位置和存取資料的許可

  • 結構描述,包含資料中的屬性名稱及各屬性的類型 (數字、文字、分類或二元)

  • 屬性名稱,包含您希望 Amazon ML 學習預測的回答,即目標屬性

注意

資料來源並不會實際地存放您的資料,只是參考該資料而已。請避免移動或變更存放在 Amazon S3 中的檔案。如果您移動或變更了檔案,Amazon ML 就無法存取它們來建立 ML 模型、產生評估或產生預測。

建立訓練資料來源
  1. 開啟 Amazon Machine Learning 主控台https://console.aws.amazon.com/machinelearning/

  2. 選擇 Get started (開始使用)。

    注意

    本教學課程假設這是您第一次使用 Amazon ML。如果您之前使用過亞馬遜 ML,則可以使用建立新項目...下拉式清單,建立新的資料來源。

  3. 開始使用 Amazon Machine Learning頁面,選擇啟動

    Amazon Machine Learning interface with "Launch" button highlighted for standard setup.
  4. Input Data (輸入資料) 頁面上,確定 Where is your data located? (您的資料在哪個位置?) 已選取 S3

    Radio button selection between S3 and Redshift options, with S3 selected.
  5. 適用於S3 位置中,鍵入banking.csv 檔案:準備您的資料。例如:。您的儲存貯體/banking.csv。Amazon ML 會為您在您儲存貯體名稱的開頭放置 s3://。

  6. 針對 Datasource name (資料來源名稱)​ 輸入 Banking Data 1

    S3 location input field and Datasource name field for entering banking data information.
  7. 選擇 Verify (驗證)

  8. S3 permissions (S3 許可) 對話方塊中,選擇 Yes (是)

    Dialog box asking to grant Amazon Machine Learning read permission for S3 location.
  9. 如果 Amazon ML 可以存取並讀取 S3 位置的資料檔案,您就會看到類似如下的頁面。檢閱屬性,然後選擇 Continue (繼續)

    Validation success message with datasource details including name, location, and file information.

接著,您要建立結構描述。一個模式是 Amazon ML 為 ML 模型解譯輸入資料所需的資訊,包括屬性名稱及其指派資料類型,還有特殊屬性的名稱。向 Amazon ML 提供結構描述的方式有兩種:

  • 當您上傳 Amazon S3 資料時,提供獨立的結構描述檔案。

  • 允許 Amazon ML 為您推斷屬性類型和建立結構描述。

在本教學課程中,我們會要求 Amazon ML 推斷結構描述。

如需建立獨立結構描述檔案的相關資訊,請參閱建立 Amazon ML 的資料結構描述

允許 Amazon ML 推斷結構描述
  1. 結構描述頁面,Amazon ML 會向您顯示其所推斷的結構描述。檢 Amazon ML 對屬性推斷的資料類型。為屬性指派的資料類型務必正確,以協助 Amazon ML 正確地攝取資料,並對屬性進行正確的特徵處理。

    • 若屬性只有兩種可能狀態 (例如,是或否),應標示為 Binary (二元)

    • 若屬性為用來表示分類的數字或字串,應標示為 Categorical (分類)

    • 若屬性為順序有意義的數字量,應標示為 Numeric (數值)

    • 若屬性為您想要視為以空格分隔之單詞的字串,應標示為 Text (文字)

    Data table showing fields like age, campaign, and contact with their data types and sample values.
  2. 在本教學課程中,Amazon ML 已正確識別所有屬性的資料類型,所以請選擇Continue

接著選取目標屬性。

請記住,目標是 ML 模型必須學習預測的屬性。屬性 y 會指出某人過去是否訂閱過活動:1 (是) 或 0 (否)。

注意

只有當您要使用資料來源來訓練和評估 ML 模型時,才選擇目標屬性。

選取 y 做為目標屬性
  1. 在表格右下方,選擇單箭頭前往表格的最後一頁,該頁會顯示名為 y 的屬性。

    Navigation buttons for a paginated table, with the last page arrow highlighted.
  2. Target (目標) 欄,選取 y

    Checkbox in Target column next to variable 'y' with Binary data type.

    Amazon ML 會確認y會選取為您的目標。

  3. 選擇 Continue (繼續)

  4. Row ID (列 ID) 頁面上,確定 Does your data contain an identifier? (您的資料包含識別符嗎?) 已選取預設值 No (否)

  5. 選擇 Review (檢閱),然後選擇 Continue (繼續)

既然您已具有訓練資料來源,就可以建立模型