选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

导出数据

聚焦模式
导出数据 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

导出数据,将数据流中的转换应用于完整的导入数据集。您可以将数据流中的任何节点导出到以下位置:

  • SageMaker 画布数据集

  • Amazon S3

如果您想在 Canvas 中训练模型,可以将转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据,可以将数据集导出到 Amazon S3。

导出到 Canvas 数据集

使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。

将流程中的节点导出为 SageMaker Canvas 数据集
  1. 导航至数据流。

  2. 选择要导出的节点旁边的省略号图标。

  3. 在上下文菜单中,将鼠标悬停在导出上,然后选择将数据导出到 Canvas 数据集

  4. 导出到 Canvas 数据集侧面板中,输入新数据集的数据集名称

  5. 如果您希望 C SageMaker anvas 处理并保存您的完整数据集,请选中 “处理整个数据集” 选项。关闭此选项,只将转换应用于数据流中正在处理的样本数据。

  6. 选择导出

现在,您应该可以进入 Canvas 应用程序的数据集页面,查看新数据集。

导出到 Amazon S3

将数据导出到 Amazon S3 时,您可以扩展以转换和处理任何规模的数据。如果应用程序的内存能够处理数据集的大小,Canvas 会自动在本地处理数据。如果您的数据集大小超过 5 GB 的本地内存容量,Canvas 会以您的名义启动一个远程作业,为您提供额外的计算资源并更快地处理数据。默认情况下,Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是,您可以手动将 Canvas 配置为使用 EMR Serverless 或使用自己的设置的 Proces SageMaker sing 作业。

注意

运行 EMR Serverless 作业时,默认情况下作业会继承 Canvas 应用程序的 IAM 角色、KMS 密钥设置和标签。

下面总结了 Canvas 中的远程作业选项:

  • EMR Serverless:这是 Canvas 用于远程作业的默认选项。EMR Serverless 可自动调配和扩展计算资源来处理数据,因此您无需担心为工作负载选择合适的计算资源。有关 EMR Serverless 的更多信息,请参阅《EMR Serverless 用户指南》

  • SageMaker 处理: SageMaker 处理作业提供更高级的选项,并可对用于处理数据的计算资源进行精细控制。例如,您可以指定计算实例的类型和数量,在自己的 VPC 中配置作业并控制网络访问,自动处理作业等。有关处理作业的更多信息,请参阅 创建自动处理新数据的计划。有关 SageMaker 处理作业的更多一般信息,请参阅带 SageMaker 处理功能的数据转换工作负载

导出到 Amazon S3 时支持以下文件类型:

  • CSV

  • Parquet

要开始使用,请查看以下先决条件。

EMR Serverless 作业的先决条件

要创建使用 EMR Serverless 资源的远程作业,您必须拥有必要的权限。您可以通过 Amazon A SageMaker I 域或用户个人资料设置授予权限,也可以手动配置用户的 AWS IAM 角色。有关如何授予用户执行大型数据处理的权限的说明,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限

如果您不想配置这些策略,但仍需要通过 Data Wrangler 处理大型数据集,也可以使用 SageMaker 处理作业。

按照以下步骤将数据导出到 Amazon S3。要配置远程作业,请按照可选的高级步骤操作。

将流中的节点导出到 Amazon S3
  1. 导航至数据流。

  2. 选择要导出的节点旁边的省略号图标。

  3. 在上下文菜单中,将鼠标悬停在导出上,然后选择将数据导出到 Amazon S3

  4. 导出到 Amazon S3 侧面板中,您可以更改新数据集的数据集名称

  5. 对于 S3 位置,输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 位置或 S3 接入点的 S3 URI、别名或 ARN。有关更多信息接入点,请参阅 Amazon S3 用户指南中的使用 Amazon S3 接入点管理数据访问

  6. (可选)对于高级设置,为以下字段指定值:

    1. 文件类型:导出数据的文件格式。

    2. 分隔符:用于分隔文件中值的分隔符。

    3. 压缩:用于减小文件大小的压缩方法。

    4. 分区数:Canvas 作为作业输出写入的数据集文件的数量。

    5. 选择列:您可以从数据中选择要包含在分区中的列子集。

  7. 如果您希望 Canvas 对整个数据集应用数据流转换并导出结果,请选中处理整个数据集选项。如果您取消选择此选项,Canvas 将只对交互式 Data Wrangler 数据流中使用的数据集样本应用转换。

    注意

    如果您只导出数据样本,Canvas 会在应用程序中处理您的数据,而不会为您创建远程作业。

  8. 如果您希望 Canvas 自动确定是使用 Canvas 应用程序内存还是 EMR Serverless 作业来运行作业,请选中自动作业配置选项。如果您取消选择此选项并手动配置作业,则可以选择使用 EMR Serverless 或 SageMaker 处理作业。有关如何配置 EMR Serverless 或 SageMaker 处理作业的说明,请在导出数据之前参阅此过程之后的部分。

  9. 选择导出

以下过程说明在将完整数据集导出到 Amazon S3 时,如何手动配置 EMR Serverless 或 P SageMaker rocessing 的远程任务设置。

EMR Serverless

要在导出到 Amazon S3 时配置 EMR Serverless 作业,请执行以下操作:

  1. 在导出到 Amazon S3 侧面板中,关闭自动作业配置选项。

  2. 选择 EMR Serverless

  3. 作业名称中,输入 EMR Serverless 作业的名称。名称可以包含字母、数字、连字符和下划线。

  4. IAM 角色中,输入用户的 IAM 执行角色。此角色应拥有运行 EMR Serverless 应用程序所需的权限。有关更多信息,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限

  5. (可选)对于 KMS 密钥,请指定用于加密任务日志的 AWS KMS key 密钥 ID 或 ARN。如果不输入密钥,Canvas 会使用 EMR Serverless 的默认密钥。

  6. (可选)在监控配置中,输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。

  7. (可选)对于标签,为 EMR Serverless 作业添加由键值对组成的元数据标签。这些标签可用于对作业进行分类和搜索。

  8. 选择 Export 以启动任务。

SageMaker Processing

要在导出到 Amazon S3 的同时配置 SageMaker 处理任务,请执行以下操作:

  1. 导出到 Amazon S3 侧面板中,关闭自动作业配置选项。

  2. 选择 “SageMaker 处理”。

  3. 在 “任务名称” 中,输入 A SageMaker I 处理任务的名称。

  4. 对于实例类型,选择要运行处理作业的计算实例的类型。

  5. 对于实例数,指定要启动的计算实例数量。

  6. IAM 角色中,输入用户的 IAM 执行角色。此角色应具有 SageMaker AI 代表您创建和运行处理任务所需的权限。如果您将AmazonSageMakerFullAccess策略附加到您的 IAM 角色,则会授予这些权限。

  7. 对于卷大小,输入连接到每个处理实例的 ML 存储卷的存储大小(以 GB 为单位)。根据预期的输入和输出数据大小选择大小。

  8. (可选)对于卷 KMS 密钥,指定用于加密存储卷的 KMS 密钥。如果未指定密钥,则会使用默认的 Amazon EBS 加密密钥。

  9. (可选)对于 KMS 密钥,指定 KMS 密钥以加密处理作业使用的输入和输出 Amazon S3 数据来源。

  10. (可选)要配置 Spark 内存,请执行以下操作:

    1. 输入处理作业协调和调度的 Spark 驱动程序节点的驱动程序内存(以 MB 为单位)

    2. 为在作业中运行单个任务的 Spark 执行器节点输入执行器内存(以 MB 为单位)

  11. (可选)对于网络配置,请执行以下操作:

    1. 对于子网配置,请输入要在 IDs 其中启动处理实例的 VPC 子网。默认情况下,此作业使用默认 VPC 的设置。

    2. 对于安全组配置,请输入用于控制入站和出站连接规则的安全组。 IDs

    3. 打开启用容器间流量加密选项,以在作业期间加密处理容器之间的网络通信。

  12. (可选)对于员工计划,您可以选择创建 Amazon EventBridge 计划,使处理任务按周期性间隔运行。选择创建新计划,然后填写对话框。有关填写本节和按计划运行处理作业的更多信息,请参阅 创建自动处理新数据的计划

  13. (可选)将标签添加为键值对,以便您可以对处理作业进行分类和搜索。

  14. 选择导出以启动处理任务。

要在导出到 Amazon S3 时配置 EMR Serverless 作业,请执行以下操作:

  1. 在导出到 Amazon S3 侧面板中,关闭自动作业配置选项。

  2. 选择 EMR Serverless

  3. 作业名称中,输入 EMR Serverless 作业的名称。名称可以包含字母、数字、连字符和下划线。

  4. IAM 角色中,输入用户的 IAM 执行角色。此角色应拥有运行 EMR Serverless 应用程序所需的权限。有关更多信息,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限

  5. (可选)对于 KMS 密钥,请指定用于加密任务日志的 AWS KMS key 密钥 ID 或 ARN。如果不输入密钥,Canvas 会使用 EMR Serverless 的默认密钥。

  6. (可选)在监控配置中,输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。

  7. (可选)对于标签,为 EMR Serverless 作业添加由键值对组成的元数据标签。这些标签可用于对作业进行分类和搜索。

  8. 选择 Export 以启动任务。

导出数据后,您应该能在指定的 Amazon S3 位置查找经过全面处理的数据集。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。