步驟 1:準備您的資料 - Amazon Machine Learning

我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件適用於現有使用者,但我們不再對其進行更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 1:準備您的資料

在機器學習中,您通常會取得資料,並先確保它的格式良好,再啟動培訓程序。基於本教學課程的目的,我們已從UCI Machine Learning Repository,並將其格式化以符合 Amazon ML 指導方針且設為可供您下載。遵循本主題中的程序,以從 Amazon Simple Storage Service (Amazon S3) 存放位置下載資料集,並將它上傳至您自己的 S3 儲存貯體。

對於 Amazon ML 格式化需求,請參了解亞馬遜 ML 資料格式

下載資料集
  1. 按一下 banking.zip,下載包含已購買類似銀行定期存款產品之客戶歷史資料的檔案。解壓縮資料夾,並將 banking.csv 檔案儲存到您的電腦。

  2. 按一下 banking-batch.zip,下載您將用來預測潛在客戶是否會回應您的報價的檔案。解壓縮資料夾,並將 banking-batch.csv 檔案儲存到您的電腦。

  3. 打開 banking.csv. 您將會看到資料的資料列和資料行。「標題列」包含每個資料行的屬性名稱。「屬性」(Attribute) 是唯一具名屬性 (Property),說明每個客戶的特定特性,例如,nr_employed 指出客戶的雇用狀態。每個資料列都代表單一客戶的觀察集合。

    Spreadsheet preview showing header row with columns for euribor3m, nr_employed, and y.

    您希望 ML 模型回答「這位客戶將訂閱我的新產品嗎?」問題。在 banking.csv 資料集內,這個問題的答案是 y 屬性,其包含值 1 (表示「是」) 或 0 (表示「否」)。您希望 Amazon ML 學習如何預測的屬性稱為目標屬性

    注意

    屬性 y 是二元屬性。它可以只包含兩個值的其中一個值,在這種情況下為 0 或 1。在原始 UCI 資料集內,y 屬性為「是」或「否」。我們已為您編輯妥原始資料集。屬性 y 表示「是」的所有值現在是 1,而表示「否」的所有值現在是 0。如果您使用自己的資料,則可以使用其他二元屬性值。如需有效值的詳細資訊,請參閱使用 AttributeType 欄位

以下範例顯示將 y 屬性的值變更為二元屬性 0 和 1 前後的資料。

Data table showing 'banking.csv' with columns for 'euribor3m', 'nr_employed', and binary 'y' values.
Partial view of a CSV file showing banking data with columns for euribor3m, nr_employed, and y.

banking-batch.csv 檔案未包含 y 屬性。在您建立 ML 模型之後,將會使用此模型來預測該檔案中每筆記錄的 y

接著,上傳banking.csv banking-batch.csv檔案至 Amazon S3。

將檔案上傳至 Amazon S3 位置
  1. 登入 AWS Management Console,並開啟位於 https://console.aws.amazon.com/s3/ 的 Amazon S3 主控台。

  2. All Buckets (所有儲存貯體) 清單中,建立儲存貯體或選擇您要上傳檔案的位置。

  3. 在導覽列中,選擇 Upload (上傳)

  4. 選擇 Add Files (新增檔案)

  5. 在對話方塊中,導覽至您的桌面並選擇 banking.csvbanking-batch.csv,然後選擇 Open (開啟)

您現在已準備好可建立培訓資料來源