在 SageMaker AI 中選擇正確資料準備工具的建議

機器學習中的資料準備是指收集、預先處理和組織原始資料，以使其適合進行分析和建模的程序。此步驟確保資料採用機器學習演算法可有效學習的格式。資料準備任務可能包括處理缺少值、移除極端值、擴展功能、編碼分類變數、評估潛在偏差並採取步驟來緩解這些偏差、將資料分割為訓練和測試集、標記和其他必要的轉換，以最佳化後續機器學習任務的資料品質和可用性。

選擇功能

使用 Amazon SageMaker AI 進行資料準備有 3 個主要使用案例。選擇符合您要求的使用案例，然後參考對應的建議功能。

使用案例

以下是為機器學習執行資料準備時的主要使用案例。

使用案例 1：對於偏好視覺化介面的使用者，SageMaker AI 提供透過點按式環境探索、準備和設計模型訓練特徵的方法。
使用案例 2：對於熟悉編碼的使用者，如果他們想要更靈活地控制資料準備，SageMaker AI 會將工具整合到其編碼環境，以進行探索、轉換和特徵工程。
使用案例 3：對於專注於可擴展資料準備的使用者，SageMaker AI 提供無伺服器功能，利用 Hadoop/Spark 生態系統進行巨量資料的分散式處理。

推薦功能

下表概述 SageMaker AI 功能的關鍵考量和權衡，這些功能與機器學習的每個資料準備使用案例相關。若要開始使用，請識別符合您要求的使用案例，並導覽至其建議的 SageMaker AI 功能。

描述項	使用案例 1	使用案例 2	使用案例 3
SageMaker AI 功能	Amazon SageMaker Canvas 內的 Data Wrangler	在 Studio 中使用 SQL 進行資料準備	Studio 中的使用 EMR Serverless 準備資料應用程式
說明	SageMaker Canvas 是一種視覺化低程式碼環境，用於在 SageMaker AI 中建置、訓練和部署機器學習模型。其整合式 Data Wrangler 工具可讓使用者透過點按式互動來結合、轉換和清理資料集。	Studio 中的 SQL 延伸模組可讓使用者連線至 Amazon Redshift、Snowflake、Athena 和 Amazon S3，以編寫臨機操作 SQL 查詢，並在 JupyterLab 筆記本中預覽結果。您可以使用 Python 和 Pandas 操控這些查詢的輸出，以進行額外的處理、視覺化和將其轉換為可用於機器學習模型開發的格式。	EMR Serverless 與 Amazon SageMaker Studio 之間的整合為使用 Apache Spark 和 Apache Hive 等開放原始碼架構的機器學習提供了可擴展的無伺服器環境，以進行大規模資料準備。使用者可以直接從其 Studio 筆記本存取 EMR Serverless 應用程式和資料，以大規模執行其資料準備任務。
最佳化	使用視覺化界面，您可以在其中：建立資料準備管道執行資料分析使用內建轉換來轉換資料使用 genAI 支援的自然語言指示進行資料轉換針對表格式資料任務進行最佳化，例如處理缺少值、編碼分類變數，以及套用資料轉換。	對於其資料位於 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中的使用者，而且他們想要結合探索性 SQL 和 Python 進行資料分析和準備，而不需要學習 Spark。	對於偏好無伺服器體驗的使用者，其會透過自動資源佈建和終止來擴展圍繞 Apache Spark 發展的短時間執行或間歇性互動式工作負載，同時利用 SageMaker AI 的機器學習功能。
考量事項	如果您的團隊已經具備 Python、Spark 或其他語言的專業知識，則可能不是最佳選擇。如果您需要完全彈性來自訂轉換以新增複雜的商業邏輯，或需要完全控制資料處理環境，則可能不是最適合的。	此功能僅針對位於 Amazon Redshift、Snowflake、Athena 或 Amazon S3 的結構化資料而設計。如果您的查詢結果大小超過 SageMaker AI 執行個體記憶體，以下筆記本可以引導您開始使用 Athena，以準備資料供 SageMaker AI 演算法擷取。	對於不熟悉 EMR Serverless 應用程式和 Spark 型工具的使用者而言，學習曲線可能具有挑戰性。此功能更適合互動式資料準備任務，而且對於涉及大量資料、與其他服務的廣泛整合、自訂應用程式，或除了 Apache Spark 之外各種分散式資料處理架構的大規模、長時間執行或複雜資料處理要求，可能不如 Amazon EMR 叢集有效率。雖然無伺服器運算對短期任務具有成本效益，但請務必謹慎監控和管理成本，尤其是長時間執行或資源密集的工作負載。
建議的環境	開始使用 SageMaker Canvas	啟動 Studio	啟動 Studio

其他選項

SageMaker AI 提供下列其他選項，讓您準備資料以用於機器學習模型。

使用 Amazon EMR 進行資料準備：對於長時間執行、運算密集的大規模資料處理任務，請考慮使用來自 SageMaker Studio 的 Amazon EMR 叢集。Amazon EMR 叢集旨在處理大量平行化，而且可以擴展到數百或數千個節點，使其非常適合需要 Apache Spark、Hadoop、Hive 和 Presto 等架構的巨量資料工作負載。Amazon EMR 與 SageMaker Studio 的整合可讓您利用 Amazon EMR 的可擴展性和效能，同時在 SageMaker Studio 環境內集中管理完整的 ML 實驗、模型訓練和部署。
使用 Glue 互動式工作階段準備資料：您可以從 AWS Glue 互動式工作階段使用 Apache Spark 型無伺服器引擎，在 SageMaker Studio 中彙總、轉換和準備來自多個來源的資料。
使用 Amazon SageMaker Clarify 處理任務識別訓練資料的偏差：SageMaker Clarify 會分析您的資料並偵測多個面向的潛在偏差。例如，您可以使用 Studio 中的 Clarify API 來偵測訓練資料是否包含性別、種族或年齡等群組之間的不平衡表示法或標記偏差。Clarify 可以協助您在訓練模型之前識別這些偏差，以避免將偏差傳播到模型的預測中。
建立、存放和共用功能：Amazon SageMaker Feature Store 可最佳化機器學習精選特徵的探索和重複使用。它提供集中式儲存庫來存放特徵資料，您可以搜尋和擷取此資料以進行模型訓練。以標準化格式存放特徵可讓 ML 專案重複使用這些特徵。特徵存放區會管理特徵的完整生命週期，包括歷程追蹤、統計資料和稽核軌跡，以進行可擴展且受管理的機器學習特徵工程。
使用人類參與迴圈標記資料：您可以使用 SageMaker Ground Truth 來管理訓練資料集的資料標記工作流程。
使用 SageMaker Processing API：在執行探索性資料分析並建立資料轉換步驟之後，您可以使用 SageMaker AI Processing 任務生產您的轉換程式碼，並使用 SageMaker 模型建置管道自動化您的準備工作流程。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

API 參考

在 Studio 中使用 SQL 進行資料準備