Data Wrangler 中的数据处理工作原理 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Data Wrangler 中的数据处理工作原理

在 Amazon Data Wrangler SageMaker 数据流中以交互方式处理数据时,Amazon SageMaker Canvas 仅将转换应用于示例数据集供您预览。在 SageMaker Canvas 中完成数据流后,您可以处理所有数据并将其保存在适合您的机器学习工作流程的位置。

在 Data Wrangler 中完成数据转换后,有多种继续操作的选项:

  • 创建模型。您可以创建一个 Canvas 模型,在此模型中,您可以直接使用准备好的数据创建模型。您可以在处理整个数据集后创建模型,也可以只导出在 Data Wrangler 中使用的样本数据。Canvas 会将处理过的数据(整个数据集或样本数据)保存为 Canvas 数据集。

    我们建议您在快速迭代时使用样本数据,但在训练最终模型时使用全部数据。在构建表格模型时,大于 5 GB 的数据集会自动降采样到 5 GB,而对于时间序列预测模型,大于 30 GB 的数据集会降采样到 30 GB。

    要了解创建模型的更多信息,请参阅 自定义模型的工作原理

  • 导出数据。您可以导出数据以用于机器学习工作流程。当您选择导出数据时,您有以下几种选择:

    • 您可以在 Canvas 应用程序中将数据保存为数据集。有关 Canvas 数据集支持的文件类型以及将数据导入 Canvas 时的其他要求,请参阅 创建数据集

    • 您可以将数据保存到 Amazon S3。根据 Canvas 内存的可用性,您的数据将在应用程序中处理,然后导出到 Amazon S3。如果数据集的大小超出了 Canvas 的处理能力,则默认情况下,Canvas 会使用 EMR Serverless 作业扩展到多个计算实例,处理完整的数据集,然后将其导出到 Amazon S3。您也可以手动配置 Processing 作业,以便更精细地控制用于 SageMaker 处理数据的计算资源。

  • 导出数据流。您可能需要保存数据流的代码,以便在 Canvas 之外修改或运行转换。Canvas 可让您将数据流转换保存为 Jupyter Notebook 中的 Python 代码,然后将其导出到 Amazon S3,供机器学习工作流程中的其他部分使用。

当您从数据流中导出数据并将其保存为 Canvas 数据集或保存到 Amazon S3 时,Canvas 会在数据流中创建一个新的目标节点,此节点是显示已处理数据的存储位置的最后一个节点。如果您要执行多个导出操作,则可以在流程中添加其他目标节点。例如,您可以从数据流中的不同点导出数据,只应用部分转换,也可以将转换后的数据导出到不同的 Amazon S3 位置。有关如何添加或编辑目标节点的更多信息,请参阅 添加目标节点编辑目标节点

有关在 Amazon 上设置计划 EventBridge 以按计划自动处理和导出数据的更多信息,请参阅创建自动处理新数据的计划