

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 SageMaker AI 中选择正确的数据准备工具的建议
<a name="data-prep"></a>

机器学习中的数据准备是指收集、预处理和组织原始数据，使其适合分析和建模的过程。这一步骤可确保数据格式适合机器学习算法有效学习。数据准备任务可能包括处理缺失值、去除异常值、缩放功能、对分类变量进行编码、评测潜在偏差并采取措施减少偏差、将数据拆分为训练集和测试集、标记以及其他必要的转换，以优化数据的质量和可用性，从而完成后续的机器学习任务。

## 选择功能
<a name="data-prep-choose"></a>

使用 Amazon A SageMaker I *准备数据*有三个主要用例。选择符合您需求的[使用场景](#data-prep-choose-use-cases)，然后参考相应的[推荐功能](#data-prep-choose-recommended)。

### 使用案例
<a name="data-prep-choose-use-cases"></a>

以下是为机器学习进行数据准备时的主要使用场景。
+ **用例 1**：对于那些喜欢可视化界面的用户， SageMaker AI 提供了通过 point-and-click环境探索、准备和设计模型训练功能的方法。
+ **用例 2**：对于熟悉编程、希望提高数据准备灵活性和控制力的用户， SageMaker AI 将工具集成到其编码环境中，用于探索、转换和功能工程。
+ **用例 3**：对于专注于可扩展数据准备的用户， SageMaker AI 提供了无服务器功能，可利用 Hadoop/Spark 生态系统对大数据进行分布式处理。

### 推荐的功能
<a name="data-prep-choose-recommended"></a>

下表概述了与机器学习的每个数据准备用例相关的 SageMaker AI 功能的关键注意事项和权衡取舍。首先，请确定符合您要求的用例，然后导航到其推荐的 SageMaker AI 功能。


| 描述符 | 应用场景 1 | 应用场景 2 | 使用案例 3 | 
| --- | --- | --- | --- | 
| SageMaker 人工智能功能 | 亚马逊 Canva@@ [s 中的 Data Wrangler](canvas-data-prep.md) SageMaker  | [在 Studio 中使用 SQL 准备数据](sagemaker-sql-extension.md) | Studio 中的 [使用 EMR Serverless 准备数据](studio-notebooks-emr-serverless.md) 应用程序 | 
| 说明 | SageMaker Canvas 是一个可视化的低代码环境，用于在 SageMaker AI 中构建、训练和部署机器学习模型。其集成的 Data Wrangler 工具允许用户通过 point-and-click交互合并、转换和清理数据集。 | Studio 中的 SQL 扩展允许用户连接亚马逊 Redshift、Snowflake、Athena 和 Amazon S3，以创作临时 SQL 查询，并在笔记本中预览结果。 JupyterLab可以使用 Python 和 Pandas 对这些查询的输出进行处理，以便进行额外的处理、可视化，并将其转换为机器学习模型开发所需的格式。 | EMR Serverless 和 Amazon SageMaker Studio 之间的集成提供了一个可扩展的无服务器环境，用于使用 Apache Spark 和 Apache Hive 等开源框架为机器学习准备大规模数据。用户可以直接从其 Studio 笔记本访问 EMR Serverless 应用程序和数据，以大规模执行数据准备任务。 | 
| 优化 | 使用可视化界面，您可以：[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-prep.html) 针对表格数据任务进行了优化，如处理缺失值、编码分类变量和应用数据转换。  | 适用于数据驻留在 Amazon Redshift、Snowflake、Athena 或 [Amazon S3](studio-sqlexplorer-athena-s3-quickstart.md) 中，并希望将探索式 SQL 和 Python 结合起来进行数据分析和准备，而无需学习 Spark 的用户。 | 适用于更喜欢无服务器体验的用户，这些体验包括自动资源配置和终止来扩展围绕 Apache Spark 的短时运行或间歇性交互式工作负载，同时利用 SageMaker AI 的机器学习功能。 | 
| 注意事项 |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-prep.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-prep.html)  | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/data-prep.html)  | 
| 建议的环境 | [开始使用 SageMaker 画布](canvas-getting-started.md) | [启动 Studio](studio-updated-launch.md#studio-updated-launch-prereq) | [启动 Studio](studio-updated-launch.md#studio-updated-launch-prereq) | 

### 其他选项
<a name="data-prep-choose-additional"></a>

 SageMaker AI 提供了以下其他选项，用于准备用于机器学习模型的数据。
+ [使用 Amazon EMR 准备数据](studio-notebooks-emr-cluster.md)：对于长时间运行、计算密集型的大规模数据处理任务，可以考虑使用 Studio 的 Amazon EMR 集群。 SageMaker Amazon EMR 集群旨在处理大规模并行化，可扩展至数百或数千个节点，因此非常适合需要 Apache Spark、Hadoop、Hive 和 Presto 等框架的大数据工作负载。Amazon EMR 与 SageMaker Studio 的集成使您可以利用 Amazon EMR 的可扩展性和性能，同时在 Studio 环境中集中和管理完整的机器学习实验、模型训练和部署。 SageMaker 
+ [使用 glue 交互式会话准备数据](studio-notebooks-glue.md)：您可以使用交 AWS Glue 互式会话中基于 Apache Spark 的无服务器引擎在 Studio 中聚合、转换和准备来自多个来源的数据。 SageMaker 
+ 使用 Amazon SageMaker Cl@@ [arify 处理任务识别训练数据中的偏见]()： SageMaker Clarify 会分析您的数据并检测多个方面的潜在偏差。例如，您可以使用 Studio 中的 Clarify API 来检测您的训练数据是否包含不平衡的表示或群体（如性别、种族或年龄）间的标签偏差。Clarify 可以帮助您在训练模型前识别这些偏差，避免将偏差传播到模型的预测中。
+ [创建、存储和共享功能]()：Amazon F SageMaker eature Store 优化了机器学习精选功能的发现和重复使用。它提供了一个集中式存储库，用于存储可搜索和检索的功能数据，以便进行模型训练。以标准化格式存储功能可在多个 ML 项目中重复使用。特征存放区管理功能的整个生命周期，包括任务流水线追踪功能、统计和审计跟踪记录，以实现可扩展和可管理的机器学习特征工程。
+ [使用标记数据 human-in-the-loop](data-label.md)：您可以使用 G SageMaker round Truth 来管理训练数据集的数据标签工作流程。
+ [使用 SageMaker Processing API](processing-job.md)：在执行探索性数据分析并创建数据转换步骤后，您可以使用 [SageMaker AI 处理作业](processing-job.md)生成转换代码，并使用[SageMaker 模型](pipelines.md)构建管道自动执行准备工作流程。