

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 SageMaker AI 中選擇正確資料準備工具的建議
<a name="data-prep"></a>

機器學習中的資料準備是指收集、預先處理和組織原始資料，以使其適合進行分析和建模的程序。此步驟確保資料採用機器學習演算法可有效學習的格式。資料準備任務可能包括處理缺少值、移除極端值、擴展功能、編碼分類變數、評估潛在偏差並採取步驟來緩解這些偏差、將資料分割為訓練和測試集、標記和其他必要的轉換，以最佳化後續機器學習任務的資料品質和可用性。

## 選擇功能
<a name="data-prep-choose"></a>

使用 Amazon SageMaker AI 進行*資料準備*有 3 個主要使用案例。選擇符合您要求的[使用案例](#data-prep-choose-use-cases)，然後參考對應的[建議功能](#data-prep-choose-recommended)。

### 使用案例
<a name="data-prep-choose-use-cases"></a>

以下是為機器學習執行資料準備時的主要使用案例。
+ **使用案例 1**：對於偏好視覺化介面的使用者，SageMaker AI 提供透過點按式環境探索、準備和設計模型訓練特徵的方法。
+ **使用案例 2**：對於熟悉編碼的使用者，如果他們想要更靈活地控制資料準備，SageMaker AI 會將工具整合到其編碼環境，以進行探索、轉換和特徵工程。
+ **使用案例 3**：對於專注於可擴展資料準備的使用者，SageMaker AI 提供無伺服器功能，利用 Hadoop/Spark 生態系統進行巨量資料的分散式處理。

### 推薦功能
<a name="data-prep-choose-recommended"></a>

下表概述 SageMaker AI 功能的關鍵考量和權衡，這些功能與機器學習的每個資料準備使用案例相關。若要開始使用，請識別符合您要求的使用案例，並導覽至其建議的 SageMaker AI 功能。


| 描述項 | 使用案例 1 | 使用案例 2 | 使用案例 3 | 
| --- | --- | --- | --- | 
| SageMaker AI 功能 | Amazon SageMaker Canvas 內的 [Data Wrangler](canvas-data-prep.md) | [在 Studio 中使用 SQL 進行資料準備](sagemaker-sql-extension.md) | Studio 中的 [使用 EMR Serverless 準備資料](studio-notebooks-emr-serverless.md) 應用程式 | 
| Description | SageMaker Canvas 是一種視覺化低程式碼環境，用於在 SageMaker AI 中建置、訓練和部署機器學習模型。其整合式 Data Wrangler 工具可讓使用者透過點按式互動來結合、轉換和清理資料集。 | Studio 中的 SQL 延伸模組可讓使用者連線至 Amazon Redshift、Snowflake、Athena 和 Amazon S3，以編寫臨機操作 SQL 查詢，並在 JupyterLab 筆記本中預覽結果。您可以使用 Python 和 Pandas 操控這些查詢的輸出，以進行額外的處理、視覺化和將其轉換為可用於機器學習模型開發的格式。 | EMR Serverless 與 Amazon SageMaker Studio 之間的整合為使用 Apache Spark 和 Apache Hive 等開放原始碼架構的機器學習提供了可擴展的無伺服器環境，以進行大規模資料準備。使用者可以直接從其 Studio 筆記本存取 EMR Serverless 應用程式和資料，以大規模執行其資料準備任務。 | 
| 最佳化 | 使用視覺化界面，您可以在其中：[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/data-prep.html) 針對表格式資料任務進行最佳化，例如處理缺少值、編碼分類變數，以及套用資料轉換。  | 對於其資料位於 Amazon Redshift、Snowflake、Athena 或 [Amazon S3](studio-sqlexplorer-athena-s3-quickstart.md) 中的使用者，而且他們想要結合探索性 SQL 和 Python 進行資料分析和準備，而不需要學習 Spark。 | 對於偏好無伺服器體驗的使用者，其會透過自動資源佈建和終止來擴展圍繞 Apache Spark 發展的短時間執行或間歇性互動式工作負載，同時利用 SageMaker AI 的機器學習功能。 | 
| 考量事項 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/data-prep.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/data-prep.html)  | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/data-prep.html)  | 
| 建議的環境 | [開始使用 SageMaker Canvas](canvas-getting-started.md) | [啟動 Studio](studio-updated-launch.md#studio-updated-launch-prereq) | [啟動 Studio](studio-updated-launch.md#studio-updated-launch-prereq) | 

### 其他選項
<a name="data-prep-choose-additional"></a>

 SageMaker AI 提供下列其他選項，讓您準備資料以用於機器學習模型。
+ [使用 Amazon EMR 進行資料準備](studio-notebooks-emr-cluster.md)：對於長時間執行、運算密集的大規模資料處理任務，請考慮使用來自 SageMaker Studio 的 Amazon EMR 叢集。Amazon EMR 叢集旨在處理大量平行化，而且可以擴展到數百或數千個節點，使其非常適合需要 Apache Spark、Hadoop、Hive 和 Presto 等架構的巨量資料工作負載。Amazon EMR 與 SageMaker Studio 的整合可讓您利用 Amazon EMR 的可擴展性和效能，同時在 SageMaker Studio 環境內集中管理完整的 ML 實驗、模型訓練和部署。
+ [使用 Glue 互動式工作階段準備資料](studio-notebooks-glue.md)：您可以從 AWS Glue 互動式工作階段使用 Apache Spark 型無伺服器引擎，在 SageMaker Studio 中彙總、轉換和準備來自多個來源的資料。
+ 使用 Amazon SageMaker Clarify 處理任務[識別訓練資料的偏差]()：SageMaker Clarify 會分析您的資料並偵測多個面向的潛在偏差。例如，您可以使用 Studio 中的 Clarify API 來偵測訓練資料是否包含性別、種族或年齡等群組之間的不平衡表示法或標記偏差。Clarify 可以協助您在訓練模型之前識別這些偏差，以避免將偏差傳播到模型的預測中。
+ [建立、存放和共用功能]()：Amazon SageMaker Feature Store 可最佳化機器學習精選特徵的探索和重複使用。它提供集中式儲存庫來存放特徵資料，您可以搜尋和擷取此資料以進行模型訓練。以標準化格式存放特徵可讓 ML 專案重複使用這些特徵。特徵存放區會管理特徵的完整生命週期，包括歷程追蹤、統計資料和稽核軌跡，以進行可擴展且受管理的機器學習特徵工程。
+ [使用人類參與迴圈標記資料](data-label.md)：您可以使用 SageMaker Ground Truth 來管理訓練資料集的資料標記工作流程。
+ [使用 SageMaker Processing API](processing-job.md)：在執行探索性資料分析並建立資料轉換步驟之後，您可以使用 [SageMaker AI Processing 任務](processing-job.md)生產您的轉換程式碼，並使用 [SageMaker 模型建置管道](pipelines.md)自動化您的準備工作流程。