编辑数据流步骤 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

编辑数据流步骤

在 Amazon SageMaker Canvas 中,您可以编辑数据流中的各个步骤来转换数据集,而无需创建新的数据流。下一页介绍了如何编辑联接和连接步骤以及数据源步骤。

编辑联接和连接步骤

在数据流中,您可以灵活地编辑联接和连接步骤。您可以对数据处理工作流程进行必要的调整,确保数据得到正确组合和转换,而无需重做整个数据流。

要编辑数据流中的联接或连接步骤,请执行以下操作:

  1. 打开您的数据流。

  2. 选择要编辑的联接或连接节点旁边的加号图标 (+)。

  3. 从上下文菜单中,选择 Edit

  4. 将打开侧面板,您可以在其中编辑联接或串联的详细信息。修改您的步骤字段,例如联接类型。要换出一个数据节点并选择另一个要加入或连接的数据节点,请选择该节点旁边的删除图标,然后在数据流视图中,选择要包含在转换中的新节点。

    注意

    在编辑过程中交换节点时,只能选择在联接或连接操作之前发生的步骤。您可以交换左侧或右侧节点,但一次只能交换一个节点。此外,您不能选择源节点作为替换节点。

  5. 选择 “预览” 以查看合并操作的结果。

  6. 单击更新以保存您的更改。

您的数据流现在应该已更新。

编辑或替换数据源步骤

您可能需要在不删除应用于原始数据的转换和数据流步骤的情况下对数据源或数据集进行更改。在 Data Wrangler 中,您可以编辑或替换数据源配置,同时保留数据流的步骤。编辑数据源时,您可以更改导入设置,例如采样大小或方法以及任何高级设置。您还可以添加更多具有相同架构的文件,或者对于基于查询的数据源(例如 Amazon Athena),您可以编辑查询。替换数据源时,只要新数据的架构与原始数据相匹配,您就可以选择不同的数据集,甚至可以完全从不同的数据源导入数据。

要编辑数据源配置,请执行以下操作:

  1. 在 Canvas 应用程序中,转到 Data Wrangler 页面

  2. 选择您的数据流进行查看。

  3. 在显示您的数据流步骤的数据流选项卡中,找到要编辑的节点。

  4. 选择节点旁边的省略号图标。

  5. 从上下文菜单中,选择 Edit

  6. 对于 Amazon S3 数据源和本地上传,您可以选择或上传更多与原始数据架构相同的文件。对于基于查询的数据源(例如 Amazon Athena),您可以在可视化查询生成器中删除并选择不同的表,也可以SQL直接编辑查询。完成此操作后,选择 Next (下一步)

  7. 对于 “导入” 设置,进行任何所需的更改。

  8. 完成后,选择保存更改

您的数据源现在应该已更新。

要替换数据源,请执行以下操作:

  1. 在 Canvas 应用程序中,转到 Data Wrangler 页面

  2. 选择您的数据流进行查看。

  3. 在显示您的数据流步骤的数据流选项卡中,找到要编辑的节点。

  4. 选择节点旁边的省略号图标。

  5. 从上下文菜单中选择 “替换”。

  6. 通过创建数据流体验来选择其他数据源和数据。

  7. 选择数据并准备好更新源节点后,选择 “保存”。

现在,您应该看到数据流中的节点已更新。