使用 Studio 經典使用者介面建立表格資料的回歸或分類自動駕駛儀實驗 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Studio 經典使用者介面建立表格資料的回歸或分類自動駕駛儀實驗

重要

截至 2023 年 11 月 30 日,自動駕駛儀的用戶界面正在遷移到 Amazon SageMaker 畫布作為更新的 Amazon 工作 SageMaker 室體驗的一部分。 SageMaker Canvas 為分析師和公民資料科學家提供無程式碼功能,適用於資料準備、特徵工程、演算法選擇、訓練與調整、推論等工作。使用者可以利用內建的視覺效果和假設分析來探索他們的資料和不同的案例,並透過自動化預測功能,讓他們能夠輕鬆生產模型。Canvas 支援各種使用案例,包括電腦視覺、需求預測、智慧搜尋和生成 AI。

Amazon SageMaker 工作室經典,工作室的以前的經驗,用戶可以繼續在工作室經典使用自動駕駛儀用戶界面。具有編碼經驗的用戶可以繼續使用任何技術實施支持SDK的所有API參考文獻

如果您到目前為止一直在 Studio Classic 中使用 Autopilot,並且想要遷移到 SageMaker Canvas,則可能必須向您的用戶個人資料或IAM角色授予其他權限,以便可以創建和使用 SageMaker Canvas 應用程序。如需詳細資訊,請參閱(選用) 從 Studio Classic 中的 Autopilot 遷移至 SageMaker Canvas

在遷移到 Amazon Canvas 之前,本指南中的所有 UI 相關說明都與 Autopilot 自動輔助駕駛的獨立功能有關。 SageMaker 按照這些說明的用戶應該使用工作室經典

您可以使用 Amazon SageMaker Studio 經典版使用者介面,針對表格資料上的分類或回歸問題建立自動輔助駕駛實驗。使用者介面可協助您指定實驗的名稱、提供輸入和輸出資料的位置,以及指定要預測的目標資料。或者,您也可以指定要解決的問題類型 (迴歸、分類、多類別分類)、選擇建模策略 (堆疊合奏超參數最佳化)、選取 Autopilot 工作用來訓練資料的演算法清單等等。

使用者介面具有說明、切換開關、下拉式功能表、選項按鈕等,可協助您瀏覽建立候選模型。實驗執行後,您可以比較試驗,並深入研究每個模型的預處理步驟、演算法和超參數範圍的詳細資訊。或者,您可以下載他們的解釋性和性能報告。使用提供的筆記本來查看自動化資料探索或候選模型定義的結果。

或者,您也可以在中使用自動輔助駕駛 AutoML API。使用 AutoML 建立表格式資料的迴歸或分類任務 API

使用工作室經典使用者介面建立自動駕駛儀實驗
  1. 登入 https://console.aws.amazon.com/sagemaker/,從左側導覽窗格中選擇 Studio,選取您的網域和使用者設定檔,然後選取開啟 Studio

  2. 在 Studio 中,選擇工作室經典左上角的導航窗格中的圖標。這會開啟工作室經典版應用程式。

  3. 從您選擇的空間執行或開啟 Studio 典型應用程式,或建立工作室經典空間。 。在首頁索引標籤,選取 AutoML。這會開啟新的 AutoML 索引標籤。

  4. 選取建立 AutoML 實驗。這會開啟新的建立實驗索引標籤。

  5. 實驗和資料詳細資訊 區段,輸入下列資訊:

    1. 實驗名稱 — 目前帳戶必須是唯一的, AWS 區域 且最多包含 63 個英數字元。可以包含連字號 (-),但不能包含空格。

    2. 輸入資料 – 提供輸入資料的 Amazon Simple Storage Service (Amazon S3) 儲存貯體位置。此 S3 儲存貯體必須位於您目前的 AWS 區域。必URL須是 Amazon SageMaker 具有寫入許可的s3://格式。該文件必須是CSV或實木地板格式,並且至少包含 500 行。選取瀏覽以捲動可用的路徑,選取預覽以查看輸入資料的範例。

    3. 您的 S3 輸入是清單檔案嗎? –資訊清單檔案包含輸入資料的中繼資料。中繼資料指定資料在 Amazon S3 中的位置。它還指定資料的格式以及訓練模型時要使用資料集中的哪些屬性。當您的標籤資料在 Pipe 模式進行串流傳輸時,您可以使用清單檔案作為預處理的替代方法。

    4. 自動拆分資料? –Autopilot 可以將您的資料分為 80-20%,用於訓練和驗證資料。如果您偏好自訂分割,您可以選擇指定分割比例。若要使用自訂資料集進行驗證,請選擇提供驗證集

    5. 輸出資料位置 (S3 儲存貯體)–您要存放輸出資料的 S3 儲存貯體位置的名稱。對URL於這個存儲桶必須是 Amazon S3 格式,其中 Amazon SageMaker 具有寫入許可。S3 儲存貯體必須位於目前 AWS 區域。Autopilot 也可以在與輸入資料相同的位置為您建立此資料。

  6. 選擇下一步:目標和特徵目標和特徵索引標籤隨即開啟。

  7. 目標和特徵區段:

    • 選取要設定為模型預測目標的欄位。

    • 或者,您可以在樣本權重區段傳遞範例權重欄位的名稱,以要求在訓練和評估期間對您的資料集行進行加權。如需可用目標指標的詳細資訊,請參閱Autopilot 加權指標

      注意

      僅在整合模式下支援樣本權重。

    • 您還可以選取要進行訓練的特徵並變更其資料類型。可用的資料類型如下:TextNumericalCategoricalDatetimeSequenceAuto。根據預設,會選取所有特徵。

  8. 選擇下一步:訓練方法訓練方法索引標籤隨即開啟。

  9. 在「訓練方法」區段中,選取您的訓練選項:「合併」、「超參數最佳化」(HPO) 或「動」,讓 Autopilot 根據資料集大小自動選擇訓練方法。每種訓練模式都會在您的資料集執行一組預先定義的演算法來訓練候選模型。根據預設,Autopilot 會預先選取指定訓練模式的所有可用演算法。您可以使用所有演算法執行 Autopilot 訓練實驗,也可以選擇自己的子集。

    有關訓練模式和可用演算法的詳細資訊,請參閱訓練模式和演算法頁面中的 Autopilot 訓練模式區段。

  10. 選擇下一步:部署和進階設定以開啟部署和進階設定索引標籤。設定包括自動顯示端點名稱、機器學習問題類型,以及執行實驗的其他選項。

    1. 部署設定–Autopilot可以自動建立端點並為您部署模型。

      若要自動部署到自動產生的端點,或為自訂部署提供端點名稱,請將自動部署?的切換設定為。如果您要從 Amazon Data Wrangler 匯入 SageMaker 資料,您還有其他選項可自動部署最佳模型,無論是否從 Data Wrangler 進行轉換。

      注意

      如果您的 Data Wrangler 流程包含多列作業 (例如 groupbyjoinconcatenate),則無法使用這些轉換進行自動部署。有關詳情,請參閱在資料流程自動訓練模型

    2. 進階設定 (選用) – Autopilot 提供額外的控制項以手動設定實驗參數,例如定義問題類型、Autopilot 任務與試驗的時間限制、安全性和加密設定。

      注意

      自動輔助駕駛支援預設值的設定,以簡化使用 Studio 經典 UI 自動輔助駕駛實驗的設定。管理員可以使用 Studio Classic 生命週期組態 (LCC) 在組態檔中設定基礎結構、網路和安全性值,並預先填入AutoML工作的進階設定

      若要了解管理員如何自動自訂 Autopilot 實驗,請參閱設定 Autopilot 實驗的預設參數 (適用於管理員)

      1. 機器學習問題類型–Autopilot 可以從您的資料集自動推論受監督學習問題的類型。如果您想要手動選擇,您可以透過選取機器學習問題類型下拉式功能表。請注意,預設為自動。在某些情況下 SageMaker ,無法準確推斷。發生這種情況時,您必須為任務的成功提供價值。特別是,您可以從以下類型進行選擇:

        • 二進位分類–二進位分類會根據其屬性 (例如根據診斷測試結果判斷某人患有疾病的診斷測試結果),將輸入資料分配給兩個預先定義且互斥的類別之一。

        • 迴歸 – 迴歸建立輸入變數 (也稱為自變數或特徵) 與目標變數 (也稱為從屬變數) 之間的關係。此關係透過將輸入變數對應至連續輸出的數學函式或模型擷取。它通常用於根據平方英尺及浴室數量、股市趨勢等特徵預測房價或估計銷售數據等任務。

        • 多類別分類 – 多類別分類會根據其屬性將輸入資料指派給其中一個類別,例如與文字文件最相關的主題 (例如政治、金融或哲學) 的預測。

      2. 執行期–您可以定義最大時間限制。達到時間限制時,超過時間限制的試驗及任務會自動停止。

      3. 存取權 — 您可以選擇 Amazon SageMaker 工作室經典版假設的角色, SageMaker 以代表您取得臨時存取權限 AWS 服務 (特別是 Amazon S3)。如果沒有明確定義角色,Studio Classic 會自動使用附加到您的使用者設定檔的預設 SageMaker 執行角色。

      4. 加密 — 若要增強靜態資料的安全性並防止未經授權的存取,您可以指定加密金鑰來加密 Amazon S3 儲存貯體和連接到 Studio Classic 網域的 Amazon 彈性區塊存放區 (AmazonEBS) 磁碟區中的資料。

      5. 安全性 — 您可以選擇執行任 SageMaker 務的虛擬私有雲 (AmazonVPC)。確保亞馬遜能VPC夠存取您的輸入和輸出 Amazon S3 儲存貯體。

      6. 專案 — 指定要與此自動輔助駕駛實驗和模型輸出相關聯的 SageMaker 專案名稱。當您指定專案時,Autopilot 會將專案標記為實驗。這可讓您知道哪些模型輸出與此專案相關聯。

      7. 標籤–標籤是鍵值對的陣列。使用標籤對資源進行分類 AWS 服務,例如其用途、擁有者或環境。

    3. 選取下一步:檢視並建立以在建立 Autopilot 實驗之前取得其摘要。

  11. 選取 [建立實驗]。實驗的建立會在 SageMaker中開始自動輔助駕駛工作。Autopilot 提供實驗的狀態、筆記本中資料探索程序和候選模型的資訊、產生模型及其報告的清單,以及用於建立模型的工作設定檔。

    如需 Autopilot 任務所產生之筆記本的相關資訊,請參閱為管理 AutoML 任務而產生的 Autopilot 筆記本。有關每個候選模型及其報告的詳細資訊,請參閱與 SageMaker Canvas 使用者共用 Autopilot 模型

注意

若要避免產生不必要的費用:如果您部署不再需要的模型,請刪除在該部署期間建立的端點和資源。有關按區域定價執行個體的資訊,請參閱 Amazon SageMaker 定價