本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据准备
注意
以前,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 体验的一部分。现在,如果您更新为使用全新 Studio 体验,则必须使用 SageMaker Canvas 来访问 Data Wrangler 并接收最新的功能更新。如果您之前一直在 Studio Classic 中使用 Data Wrangler,并且想在 Canvas 中迁移到 Data Wrangler,则可能需要授予其他权限才能创建和使用 Canvas 应用程序。有关更多信息,请参阅 (可选)从 Studio Classic 中的数据牧马人迁移到 Canvas SageMaker 。
要了解如何在 Studio Classic 中从 Data Wrangler 迁移数据流,请参阅。(可选)将数据从 Studio Classic 迁移到
在 Amazon Canvas 中使用 Amazon SageMaker Data Wr SageMaker angler 来准备、展示和分析您的数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。
-
数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。
-
转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。
-
生成数据见解 — 使用 Data Wrangler 数据质量和见解报告自动验证数据质量并检测数据中的异常。
-
分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。
-
导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:
-
Amazon Simple Storage Service (Amazon S3)桶
-
Amazon F SageMaker eature Store — 将功能及其数据存储在中央存储中。
-
-
自动准备数据-根据您的数据流创建机器学习工作流程。
-
Ama SageMaker zon Pipelines — 构建用于管理 SageMaker 数据准备、模型训练和模型部署任务的工作流程。
-
串行推理管道-根据您的数据流创建串行推理管道。用它来预测新数据。
-
Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。
-