本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
重要
截至 2023 年 11 月 30 日,Autopilot 的 UI 正在遷移至 Amazon SageMaker Canvas,作為更新後 Amazon SageMaker Studio 體驗的一部分。SageMaker Canvas 為分析師和公民資料科學家提供無程式碼功能,例如資料準備、功能工程、演算法選擇、訓練和調校、推論等。使用者可以利用內建視覺化和假設分析來探索其資料和不同案例,並搭配自動化預測,讓他們能夠輕鬆生產模型。Canvas 支援各種使用案例,包括電腦視覺、需求預測、智慧型搜尋和生成式 AI。
Amazon SageMaker Studio Classic 的使用者可以Amazon SageMaker Studio繼續使用 Studio Classic 中的 Autopilot UI。具有編碼經驗的使用者可以繼續使用任何支援 SDK 中的所有 API 參考進行技術實作。
如果您一直使用 Studio Classic 中的 Autopilot,而且想要遷移至 SageMaker Canvas,您可能必須授予使用者設定檔或 IAM 角色額外的許可,以便建立和使用 SageMaker Canvas 應用程式。如需詳細資訊,請參閱(選用) 從 Studio Classic 中的 Autopilot 遷移至 SageMaker Canvas。
本指南中的所有 UI 相關說明都與 Autopilot 的獨立功能相關,然後再遷移至 Amazon SageMaker Canvas。遵循這些指示的使用者應使用 Studio Classic。
Amazon SageMaker Autopilot 是功能集,可透過自動化建置和部署機器學習模型 (AutoML) 的程序,來簡化和加速機器學習工作流程的各個階段。下頁說明 Amazon SageMaker Autopilot 的重要資訊。
Autopilot 會執行下列關鍵任務,您可以在自動駕駛上使用,或在各種程度的人工指導下使用:
-
資料分析和預先處理:Autopilot 可識別您的特定問題類型、處理缺少值、標準化資料、選取功能,並準備總體資料進行模型訓練。
-
模型選取:Autopilot 探索各種演算法,並使用交叉驗證重新取樣技術來產生指標,這些指標根據預先定義的目標指標來評估演算法的預測品質。
-
超參數最佳化:Autopilot 會自動搜尋最佳超參數組態。
-
模型訓練和評估:Autopilot 可自動化訓練和評估各種模型候選項目的程序。它會將資料分割成訓練集和驗證集,使用訓練資料來訓練選取的模型候選項目,並評估驗證集看不到之資料上的效能。最後,它會根據效能對最佳化模型候選項目進行排名,並識別最佳執行模型。
-
模型部署:一旦 Autopilot 識別了效能最佳的模型,它提供了自動部署模型的選項,方法是產生模型成品和公開 API 的端點。外部應用程式可以將資料傳送到端點,並收到相對應的預測或推論。
Autopilot 支援在高達數百 GB 的大型資料集建立機器學習模型。
下圖概述 Autopilot 管理的此 AutoML 程序的任務。

取決於您對機器學習程序和編碼體驗的舒適程度,您可以以不同方式使用 Autopilot:
-
使用 Studio Classic UI,使用者可以選擇無程式碼體驗或具有一定程度的人工輸入。
注意
只有從迴歸或分類等問題類型的表格式資料建立的實驗,才能透過 Studio Classic UI 使用。
-
使用 AutoML API,具有編碼經驗的使用者可以使用可用的 SDKs來建立 AutoML 任務。此方法提供更大的彈性和自訂選項,且適用於所有問題類型。
Autopilot 目前支援下列問題類型:
注意
對於涉及表格式資料的迴歸或分類問題,使用者可以選擇兩個選項:使用 Studio Classic 使用者介面或 API 參考。
文字和影像分類、時間序列預測和大型語言模型微調等任務,只能透過 AutoML REST API 第 2 版使用。如果您選擇的語言是 Python,您可以直接參考 AWS SDK for Python (Boto3)
偏好使用者介面便利性的使用者可以使用 Amazon SageMaker Canvas 存取預先訓練的模型和生成式 AI 基礎模型,或建立自訂模型,以針對特定文字、影像分類、預測需求或生成式 AI 量身打造。
-
具有表格式資料格式為 CSV 或 Parquet 檔案的迴歸、二元分類和多類別分類,其中每一欄都包含具有特定資料類型的特徵,且每一列都包含一個觀察。已接受的欄位資料類型包含由逗號分隔數字字串組成的數字、分類、文字和時間序列。
-
若要使用 SageMaker API 參考將 Autopilot 任務建立為試驗實驗,請參閱 使用 AutoML API 建立表格式資料的迴歸或分類任務。
-
若要使用 Studio Classic UI 將 Autopilot 任務建立為試驗實驗,請參閱 使用 Studio Classic UI 為表格式資料建立迴歸或分類 Autopilot 實驗。
-
如果您是管理員,希望在 Studio Classic UI 中預先設定 Autopilot 實驗的預設基礎設施、聯網或安全參數,請參閱 設定 Autopilot 實驗的預設參數 (適用於管理員)。
-
-
具有資料格式為 CSV 或 Parquet 檔案的文字分類,其中一欄會提供要分類的句子,而另一欄則應提供對應的類別標籤。請參閱 使用 API 為文字分類建立 AutoML 任務。
-
具有 PNG、JPEG 或兩者組合等影像格式的影像分類。請參閱 使用 AutoML API 建立影像分類任務。
-
使用格式化為 CSV 或 Parquet 檔案的時間序列資料進行時間序列預測。請參閱 使用 API 建立用於時間序列預測的 AutoML 任務。
-
微調大型語言模型 (LLMs),以產生資料格式為 CSV 或 Parquet 檔案的文字。請參閱 建立 AutoML 任務,使用 API 微調文字產生模型。
此外,Autopilot 透過自動產生顯示每個單獨功能之重要性的報告,協助使用者了解模型如何進行預測。這對影響預測的因素提供透明度和深入分析,風險和合規團隊以及外部監管機構可以使用這些因素。Autopilot 也提供模型效能報告,其中包含評估指標總結、混淆矩陣、接收器操作特性曲線和精確重新呼叫曲線等各種視覺化等。每份報告的具體內容取決於 Autopilot 實驗的問題類型而有所不同。
Autopilot 實驗中最佳模型候選項目的可解釋性和效能報告可用於文字、影像和表格式資料分類問題類型。
對於回歸或分類等表格式資料使用案例,Autopilot 透過產生包含用於探索資料和尋找最佳效能模型的程式碼的筆記本,提供額外的可見性,了解資料如何扭曲,以及如何選擇、訓練和調校模型候選項目。這些筆記本提供互動式探索環境,可協助您了解各種輸入的影響或在實驗中取得的權衡。您可以自行修改 Autopilot 所提供的資料探勘和候選定義筆記本,進一步實驗較高的執行模型候選項目。
使用 Amazon SageMaker AI,您只需支付使用量的費用。根據您的用量,您需為 SageMaker AI 或其他 AWS 服務中的基礎運算和儲存資源付費。如需使用 SageMaker AI 成本的詳細資訊,請參閱 Amazon SageMaker AI 定價
主題
- 使用 AutoML API 建立表格式資料的迴歸或分類任務
- 使用 AutoML API 建立影像分類任務
- 使用 API 為文字分類建立 AutoML 任務
- 使用 API 建立用於時間序列預測的 AutoML 任務
- 建立 AutoML 任務,使用 API 微調文字產生模型
- 使用 Studio Classic UI 為表格式資料建立迴歸或分類 Autopilot 實驗
- Amazon SageMaker Autopilot 範例筆記本
- 影片:使用 Autopilot 自動化並探索機器學習程序
- 教學課程:開始使用 Amazon SageMaker Autopilot
- Autopilot 配額
- API Autopilot 參考指南