数据准备 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据准备

注意

以前,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 体验的一部分。现在,如果您更新为使用全新 Studio 体验,则必须使用 SageMaker Canvas 来访问 Data Wrangler 并接收最新的功能更新。如果您之前一直在 Studio Classic 中使用 Data Wrangler,并且想在 Canvas 中迁移到 Data Wrangler,则可能需要授予其他权限才能创建和使用 Canvas 应用程序。有关更多信息,请参阅 (可选)从 Studio Classic 中的数据牧马人迁移到 Canvas SageMaker

要了解如何在 Studio Classic 中从 Data Wrangler 迁移数据流,请参阅。(可选)将数据从 Studio Classic 迁移到

在 Amazon Canvas 中使用 Amazon SageMaker Data Wr SageMaker angler 来准备、展示和分析您的数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。

  • 数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。

  • 转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。

  • 生成数据见解 — 使用 Data Wrangler 数据质量和见解报告自动验证数据质量并检测数据中的异常。

  • 分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • 导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:

    • Amazon Simple Storage Service (Amazon S3)桶

    • Amazon F SageMaker eature Store — 将功能及其数据存储在中央存储中。

  • 自动准备数据-根据您的数据流创建机器学习工作流程。

    • Ama SageMaker zon Pipelines — 构建用于管理 SageMaker 数据准备、模型训练和模型部署任务的工作流程。

    • 串行推理管道-根据您的数据流创建串行推理管道。用它来预测新数据。

    • Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。