使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据 - Amazon Personalize

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Data Wrangler 准备和导入批量 SageMaker 数据

重要

在使用 Data Wrangler 时,会产生费用 SageMaker 。有关费用和价格的完整列表,请参阅 A ma SageMaker zon 定价的 Data Wrangler 选项卡。为避免产生额外费用,请在完成操作后关闭您的 Data Wrangler 实例。有关更多信息,请参阅关闭 Data Wrangler

创建数据集组后,您可以使用 Amazon SageMaker Data Wrangler(Data Wrangler)将来自 40 多个来源的数据导入到 Amazon Personalize 数据集中。Data Wrangler 是 Amazon SageMaker Studio Classic 的一项功能,它提供了导入、准备、转换和分析数据的 end-to-end 解决方案。您不能使用 Data Wrangler 来准备数据并将其导入操作数据集或操作交互数据集。

使用 Data Wrangler 准备和导入数据时,您使用的是数据流。数据流 定义了一系列机器学习数据准备步骤,从导入数据开始。每次您向流添加步骤时,Data Wrangler 都会对您的数据执行操作,例如转换数据或生成可视化。

以下是您可以添加到流中用于为 Amazon Personalize 准备数据的一些步骤:

  • 见解: 您可以将 Amazon Personalize 特定见解步骤添加到您的流中。这些见解有助于您了解数据及可采取哪些操作来改善数据。

  • 可视化: 您可以添加可视化步骤来生成直方图和散点图等图表。图表可以帮助您发现数据中的问题,例如异常值或缺失值。

  • 转换: 您可以使用特定于 Amazon Personalize 的一般转换步骤来确保您的数据符合 Amazon Personalize 要求。Amazon Personalize 转换可帮助您将数据列映射到所需的列,具体取决于 Amazon Personalize 数据集类型。

如果您需要在将数据导入 Amazon Personalize 之前退出 Data Wrangler,则可以在从 Amazon Personalize 控制台启动 Data Wrangler 时选择相同的数据集类型,返回您之前离开的位置。或者你可以直接通过 SageMaker Studio Classic 访问 Data Wrangler。

我们建议您将数据从 Data Wrangler 导入到 Amazon Personalize,如下所示。转换、可视化和分析步骤是可选、可重复的步骤,且可以按任何顺序完成。

  1. 设置权限-为 Amazon Personalize 和 SageMaker 服务角色设置权限。而且,为您的用户设置权限。

  2. 从 Amazon Personalize 控制台在 SageMaker Studio Classic 中启动 Data Wrangler-使用亚马逊个性化控制台配置 SageMaker 域并在 Studio Classic 中启动 Data Wrangler。 SageMaker

  3. 将您的数据导入 Data Wrangler - 将来自 40 多个源的数据导入 Data Wrangler。来源包括 AWS 服务,例如亚马逊 Redshift EMR、亚马逊或亚马逊 Athena,以及第三方,例如 Snowflake 或。 DataBricks

  4. 转换您的数据 - 使用 Data Wrangler 转换您的数据,以满足 Amazon Personalize 要求。

  5. 可视化和分析您的数据 - 使用 Data Wrangler 可视化您的数据,并通过 Amazon Personalize 特定见解对其进行分析。

  6. 处理数据并将其导入 Amazon Personalize — 使用 SageMaker Studio Classic Jupyter 笔记本将处理过的数据导入亚马逊个性化

其他信息

以下资源提供了有关使用 Amazon SageMaker Data Wrangler 和 Amazon Personalize 的更多信息。