本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
教學課程:在 end-to-end SageMaker Canvas 中建置機器學習工作流程
本教學課程會引導您使用 end-to-endAmazon SageMaker Canvas 完成機器學習 (ML) 工作流程。 SageMaker Canvas 是一種視覺化無程式碼界面,可用來準備資料,以及訓練和部署 ML 模型。針對教學課程,您可以使用NYC計程車資料集來訓練模型,以預測指定行程的票價金額。您可以取得關鍵 ML 任務的實作體驗,例如評估資料品質和解決資料問題、將資料分割為訓練和測試集、模型訓練和評估、進行預測,以及部署訓練過的模型,全都在 SageMaker Canvas 應用程式中進行。
重要
本教學假設您或您的管理員已建立 AWS 帳戶。如需建立 AWS 帳戶的資訊,請參閱入門:您是第一次 AWS 使用 嗎?
設定
Amazon SageMaker AI 網域是管理所有 Amazon SageMaker AI 環境和資源的集中位置。網域可做為 AI 工作的虛擬界限 SageMaker ,為您的機器學習 (ML) 資源提供隔離和存取控制。
若要開始使用 Amazon SageMaker Canvas,您或您的管理員必須導覽至 SageMaker AI 主控台並建立 Amazon SageMaker AI 網域。網域具有執行 SageMaker Canvas 所需的儲存和運算資源。在網域中,您可以設定 SageMaker Canvas 來存取 Amazon S3 儲存貯體並部署模型。使用下列程序來設定快速網域並建立 SageMaker Canvas 應用程式。
設定 SageMaker Canvas
-
導覽至 SageMaker AI 主控台
。 -
在左側導覽上,選擇 SageMaker Canvas。
-
選擇建立 SageMaker AI 網域。
-
選擇 Set up (設定)。網域設定可能需要幾分鐘的時間。
上述程序使用快速網域設定。您可以執行進階設定來控制帳戶組態的所有層面,包括許可、整合和加密。如需自訂設定的詳細資訊,請參閱 使用 Amazon SageMaker AI 的自訂設定。
根據預設,執行快速網域設定可為您提供部署模型的許可。如果您已透過標準網域設定自訂許可,且需要手動授予模型部署許可,請參閱 許可管理。
流程建立
Amazon SageMaker Canvas 是一種機器學習平台,可讓使用者建置、訓練和部署機器學習模型,而無需大量的編碼或機器學習專業知識。Amazon SageMaker Canvas 的強大功能之一是能夠匯入和使用來自各種來源的大型資料集,例如 Amazon S3。
在本教學課程中,我們使用NYC計程車資料集,使用 Amazon SageMaker Canvas Data Wrangler 資料流程來預測每次旅程的票價金額。下列程序概述將修改版本的NYC計程車資料集匯入資料流程的步驟。
注意
為了改善處理, SageMaker Canvas 會匯入您的資料範例。根據預設,它會隨機取樣 50,000 個資料列。
匯入NYC計程車資料集
-
從 SageMaker Canvas 首頁中,選擇 Data Wrangler。
-
選擇匯入資料。
-
選取表格式。
-
選擇資料來源旁的工具箱。
-
從下拉式清單中選取 Amazon S3。
-
針對輸入 S3 端點,指定
s3://
amazon-sagemaker-data-wrangler-documentation-artifacts
/canvas-single-file-nyc-taxi-dataset
.csv -
選擇 Go。
-
選取資料集旁的核取方塊。
-
選擇預覽資料。
-
選擇 Save (儲存)。
Data Quality and Insights 報告 1 (範例)
將資料集匯入 Amazon SageMaker Canvas 後,您可以產生資料範例的資料品質和洞見報告。使用它來提供資料集的寶貴洞見。報告會執行下列動作:
-
評估資料集的完整性
-
識別遺失值和極端值
它可以識別可能影響模型效能的其他潛在問題。它也會評估與目標變數相關的每個功能的預測能力,讓您找出您嘗試解決之問題最相關的功能。
我們可以使用報告中的洞見來預測票價金額。透過指定票價金額欄做為目標變數,然後選取迴歸做為問題類型,報告會分析資料集是否適合預測連續值,例如票價。報告應顯示年份和小時_of_day 等功能對於所選目標變數具有低預測能力,為您提供寶貴的洞見。
使用下列程序,從資料集取得 50,000 列範例的資料品質和洞見報告。
取得範例的報告
-
選擇從資料類型節點旁的快顯視窗取得資料洞見。
-
針對分析名稱,指定報告的名稱。
-
針對問題類型,選擇迴歸。
-
針對目標欄,選擇票價金額。
-
選擇 Create (建立)。
您可以檢閱資料範例的資料品質和洞見報告。報告指出年和小時_of_day 功能無法預測目標變數的票價金額。
在導覽頂端,選擇資料流程的名稱以導覽回它。
捨棄每日的年份和小時
我們使用報告中的洞見來捨棄年份和小時_of_day 資料欄,以簡化特徵空間並可能改善模型效能。
Amazon SageMaker Canvas 提供易於使用的界面和工具來執行此類資料轉換。
使用下列程序,使用 Amazon SageMaker Canvas 中的 Data Wrangler 工具,從NYC計程車資料集捨棄年份和小時_of_day 資料欄。
-
選擇資料類型旁的圖示。
-
選擇新增步驟。
-
在搜尋列中,寫入捨棄欄。
-
選擇管理資料欄。
-
選擇捨棄欄。
-
對於要捨棄的資料欄,請選取年份和 hour_of_day 的資料欄。
-
選擇預覽以檢視轉換如何變更您的資料。
-
選擇新增。
您可以使用上述程序作為在 SageMaker Canvas 中新增所有其他轉換的基礎。
Data Quality and Insights 報告 2 (完整資料集)
針對先前的洞見報告,我們使用NYC計程車資料集的範例。針對我們的第二個報告,我們正在對整個資料集執行全面分析,以識別影響模型效能的潛在問題。
使用下列程序來建立整個資料集的資料品質和洞見報告。
取得整個資料集的報告
-
選擇捨棄資料欄節點旁的圖示。
-
選擇取得資料洞見。
-
針對分析名稱,指定報告的名稱。
-
針對問題類型,選擇迴歸。
-
針對目標欄,選擇票價金額。
-
針對資料大小,選擇完整資料集。
-
選擇 Create (建立)。
以下是洞察報告中的映像:
它顯示下列問題:
-
重複的資料列
-
偏斜目標
重複的資料列可能會導致資料洩漏,其中模型在訓練和測試期間暴露在相同的資料中。它們可能會導致過於樂觀的效能指標。移除重複的資料列可確保模型在唯一執行個體上接受訓練,降低資料洩漏的風險,並改善模型的概括能力。
在這個案例中,扭曲的目標變數分佈的票價金額欄可能會導致不平衡的類別,其中模型可能會偏向大多數類別。這可能會導致少數群體類別的效能不佳,在準確預測罕見或代表性不足的執行個體非常重要的情況下,這種情況特別有問題。
解決資料品質問題
若要解決這些問題並準備用於建模的資料集,您可以搜尋下列轉換並加以套用:
-
使用管理資料列轉換捨棄重複項目。
-
使用強健的標準差數值異常值處理票價金額欄中的異常值。
-
使用標準差數值異常值處理旅程距離和旅程持續時間欄中的異常值。
-
使用 編碼分類將費率代碼 ID、付款類型、額外旗標和過路費標記欄編碼為浮點數。
如果您不確定如何套用轉換,請參閱 捨棄每日的年份和小時
透過解決這些資料品質問題並套用適當的轉換,您可以改善資料集的建模適用性。
驗證資料品質和快速模型準確性
套用轉換以解決資料品質問題後,例如移除重複的資料列,我們會建立最終的資料品質和洞見報告。此報告有助於驗證套用的轉換已解決問題,且資料集現在處於適合建模的狀態。
檢閱最終資料品質和洞見報告時,您應該預期不會看到標記的主要資料品質問題。報告應指出:
-
目標變數不再偏斜
-
沒有極端值或重複的資料列
此外,報告應根據在轉換資料集上訓練的基準模型提供快速模型分數。此分數可做為模型潛在準確性和效能的初始指標。
使用下列程序來建立資料品質和洞見報告。
建立資料品質和洞見報告
-
選擇捨棄資料欄節點旁的圖示。
-
選擇取得資料洞見。
-
針對分析名稱,指定報告的名稱。
-
針對問題類型,選擇迴歸。
-
針對目標欄,選擇票價金額。
-
針對資料大小,選擇完整資料集。
-
選擇 Create (建立)。
將資料分割為訓練和測試集
為了訓練模型並評估其效能,我們使用分割資料轉換將資料分割為訓練和測試集。
根據預設, SageMaker Canvas 會使用隨機分割,但您也可以使用下列類型的分割:
-
已訂購
-
分層
-
依金鑰分割
您可以變更分割百分比或新增分割。
在本教學課程中,請使用分割中的所有預設設定。您需要按兩下資料集來檢視其名稱。訓練資料集的名稱為資料集 (訓練)。
順序編碼節點旁會套用分割資料轉換。
訓練模型
分割資料後,您可以訓練模型。此模型會從資料中的模式學習。您可以使用它來進行預測或探索洞見。
SageMaker Canvas 同時具有快速建置和標準建置。使用標準組建來訓練資料的最佳效能模型。
開始訓練模型之前,您必須先將訓練資料集匯出為 SageMaker Canvas 資料集。
匯出資料集
-
在訓練資料集的節點旁,選擇 圖示,然後選取匯出。
-
選取 SageMaker Canvas 資料集。
-
選擇匯出以匯出資料集。
建立資料集之後,您可以在您建立的 SageMaker Canvas 資料集上訓練模型。如需培訓模型的資訊,請參閱 建立自訂數值或分類預測模型。
評估模型並進行預測
訓練您的機器學習模型後,評估其效能以確保其符合您的需求,並在看不見的資料上執行良好至關重要。Amazon SageMaker Canvas 提供易於使用的界面,以評估模型的準確性、檢閱其預測,並深入了解其優點和弱點。您可以使用洞見,對其部署和需要改進的潛在領域做出明智的決策。
在部署模型之前,請使用下列程序來評估模型。
若要評估模型
-
選擇我的模型。
-
選擇您建立的模型。
-
在版本下,選取與該模型對應的版本。
您現在可以檢視模型評估指標。
評估模型後,您可以對新資料進行預測。我們使用我們建立的測試資料集。
若要使用測試資料集進行預測,我們需要將其轉換為 SageMaker Canvas 資料集。 SageMaker Canvas 資料集的格式是模型可以解譯的。
使用下列程序從測試資料集建立 SageMaker Canvas 資料集。
建立 SageMaker Canvas 資料集
-
在資料集 (測試) 資料集旁,選擇選項圖示。
-
選取匯出。
-
選取 SageMaker Canvas 資料集。
-
針對資料集名稱,指定資料集的名稱。
-
選擇 Export (匯出)。
使用下列程序進行預測。它假設您仍在分析頁面上。
在測試資料集上進行預測
-
選擇預測。
-
選擇手動。
-
選取您已匯出的資料集。
-
選擇產生預測。
-
當 SageMaker Canvas 完成產生預測時,選取資料集右側的圖示。
-
選擇預覽以檢視預測。
部署模型
評估模型之後,您可以將模型部署到端點。您可以向端點提交請求以取得預測。
使用下列程序來部署模型。它假設您仍在預測頁面上。
部署模型
-
選擇部署。
-
選擇 Create deployment (建立部署)。
-
選擇部署。
清除
您已成功完成教學課程。若要避免產生額外費用,請刪除您未使用的資源。
使用下列程序刪除您建立的端點。它假設您仍在部署頁面上。
若要刪除端點
-
選擇部署右側的選項按鈕。
-
選取刪除部署。
-
選擇 刪除 。
刪除部署後,請刪除您在 SageMaker Canvas 中建立的資料集。使用下列程序刪除資料集。
刪除資料集
-
在左側導覽中選擇資料集。
-
選取您分析的資料集,以及用於預測的合成資料集。
-
選擇 刪除 。
若要避免產生額外費用,您必須登出 SageMaker Canvas。如需詳細資訊,請參閱登出 Amazon SageMaker Canvas。