本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用筆記本執行個體建置模型
機器學習 (ML) 從業人員使用 Amazon 的最佳方式之一, SageMaker 就是使用 SageMaker 筆記本執行個體訓練和部署機器學習模型。 SageMaker 筆記本執行個體透過在 Amazon 彈性運算雲端 (AmazonEC2) 上啟動 Jupyter 伺服器,並透過下列套件提供預先設定的核心,以協助建立環境:Amazon SageMaker Python SDK、、 AWS Command Line Interface (AWS CLI)、Conda、Pandas AWS SDK for Python (Boto3)、深度學習架構程式庫,以及其他用於資料科學和機器學習的程式庫。
使用 SageMaker Python 進行 Machine Learning SDK
若要訓練、驗證、部署和評估 SageMaker 筆記本執行個體中的 ML 模型,請使用 SageMaker Python SDK。 SageMaker Python 的SDK摘要 AWS SDK for Python (Boto3) 和 SageMaker API操作。它可讓您整合並協調其他 AWS 服務,例如用於儲存資料和模型成品的 Amazon S3 簡單儲存服務 (Amazon S3)、用於匯入和服務 ML 模型的 Amazon 彈性容器登錄 (ECR)、用於訓練和推論的 Amazon 彈性運算雲端 (AmazonEC2)。
您也可以利用可協助您處理完整 ML 週期每個階段的 SageMaker 功能:資料標籤、資料預處理、模型訓練、模型部署、預測效能評估,以及監控生產中的模型品質。
如果您是第一次 SageMaker 使用,我們建議您按照 end-to-end ML 教程使用 SageMaker Python SDK。若要尋找開放原始碼文件,請參閱 Amazon SageMaker Python SDK
教學課程概觀
本入門教學課程將逐步引導您如何建立 SageMaker 筆記本執行個體、開啟具有預先設定核心的 Jupyter 筆記本,以及如何啟動 SageMaker 工作階段以執行 ML 週期。 end-to-end 您將學習如何將資料集儲存到與工作 SageMaker階段自動配對的預設 Amazon S3 儲存貯體、將 ML 模型的訓練任務提交給 AmazonEC2,以及部署經過訓練的模型,以便透過 Amazon 託管或批次推論進行預測。EC2
本教學課程明確顯示從 SageMaker 內建模型集區訓練XGBoost模型的完整 ML 流程。您使用美國成人人口普查資料集
-
SageMakerXGBoost— 該XGBoost
模型適應 SageMaker 環境,並預先配置為 Docker 容器。 SageMaker提供了一套為使用 SageMaker 功能而準備的內置算法。若要進一步了解 ML 演算法適用的方式 SageMaker,請參閱選擇演算法和使用 Amazon SageMaker 內建演算法。如需 SageMaker 內建演算法API作業的相關資訊,請參閱 Amazon SageMaker Python SDK 中的第一方演算 法。 -
成人人口普查資料集
— 1994 年人口普查局資料庫 的資料集,由 Ronny Kohavi 和 Barry Becker (資料探勘與視覺化、矽晶圖形) 製作。該 SageMaker XGBoost模型使用此數據集進行訓練,以預測個人是否每年賺超過 $50,000 或更少。