本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
导出数据,将数据流中的转换应用于完整的导入数据集。您可以将数据流中的任何节点导出到以下位置:
-
SageMaker 画布数据集
-
Amazon S3
如果您想在 Canvas 中训练模型,可以将转换后的完整数据集导出为 Canvas 数据集。如果您想在 C SageMaker anvas 外部的机器学习工作流程中使用转换后的数据,可以将数据集导出到 Amazon S3。
导出到 Canvas 数据集
使用以下步骤从数据流中的节点导出 SageMaker Canvas 数据集。
将流程中的节点导出为 SageMaker Canvas 数据集
-
导航至数据流。
-
选择要导出的节点旁边的省略号图标。
-
在上下文菜单中,将鼠标悬停在导出上,然后选择将数据导出到 Canvas 数据集。
-
在导出到 Canvas 数据集侧面板中,输入新数据集的数据集名称。
-
如果您希望 C SageMaker anvas 处理并保存您的完整数据集,请选中 “处理整个数据集” 选项。关闭此选项,只将转换应用于数据流中正在处理的样本数据。
-
选择导出。
现在,您应该可以进入 Canvas 应用程序的数据集页面,查看新数据集。
导出到 Amazon S3
将数据导出到 Amazon S3 时,您可以扩展以转换和处理任何规模的数据。如果应用程序的内存能够处理数据集的大小,Canvas 会自动在本地处理数据。如果您的数据集大小超过 5 GB 的本地内存容量,Canvas 会以您的名义启动一个远程作业,为您提供额外的计算资源并更快地处理数据。默认情况下,Canvas 使用 Amazon EMR Serverless 来运行这些远程作业。但是,您可以手动将 Canvas 配置为使用 EMR Serverless 或使用自己的设置的 Proces SageMaker sing 作业。
注意
运行 EMR Serverless 作业时,默认情况下作业会继承 Canvas 应用程序的 IAM 角色、KMS 密钥设置和标签。
下面总结了 Canvas 中的远程作业选项:
-
EMR Serverless:这是 Canvas 用于远程作业的默认选项。EMR Serverless 可自动调配和扩展计算资源来处理数据,因此您无需担心为工作负载选择合适的计算资源。有关 EMR Serverless 的更多信息,请参阅《EMR Serverless 用户指南》。
-
SageMaker 处理: SageMaker 处理作业提供更高级的选项,并可对用于处理数据的计算资源进行精细控制。例如,您可以指定计算实例的类型和数量,在自己的 VPC 中配置作业并控制网络访问,自动处理作业等。有关处理作业的更多信息,请参阅 创建自动处理新数据的计划。有关 SageMaker 处理作业的更多一般信息,请参阅带 SageMaker 处理功能的数据转换工作负载。
导出到 Amazon S3 时支持以下文件类型:
-
CSV
-
Parquet
要开始使用,请查看以下先决条件。
EMR Serverless 作业的先决条件
要创建使用 EMR Serverless 资源的远程作业,您必须拥有必要的权限。您可以通过 Amazon A SageMaker I 域或用户个人资料设置授予权限,也可以手动配置用户的 AWS IAM 角色。有关如何授予用户执行大型数据处理的权限的说明,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限。
如果您不想配置这些策略,但仍需要通过 Data Wrangler 处理大型数据集,也可以使用 SageMaker 处理作业。
按照以下步骤将数据导出到 Amazon S3。要配置远程作业,请按照可选的高级步骤操作。
将流中的节点导出到 Amazon S3
-
导航至数据流。
-
选择要导出的节点旁边的省略号图标。
-
在上下文菜单中,将鼠标悬停在导出上,然后选择将数据导出到 Amazon S3。
-
在导出到 Amazon S3 侧面板中,您可以更改新数据集的数据集名称。
-
对于 S3 位置,输入要将数据集导出到的 Amazon S3 位置。您可以输入 S3 位置或 S3 接入点的 S3 URI、别名或 ARN。有关更多信息接入点,请参阅 Amazon S3 用户指南中的使用 Amazon S3 接入点管理数据访问。
-
(可选)对于高级设置,为以下字段指定值:
-
文件类型:导出数据的文件格式。
-
分隔符:用于分隔文件中值的分隔符。
-
压缩:用于减小文件大小的压缩方法。
-
分区数:Canvas 作为作业输出写入的数据集文件的数量。
-
选择列:您可以从数据中选择要包含在分区中的列子集。
-
-
如果您希望 Canvas 对整个数据集应用数据流转换并导出结果,请选中处理整个数据集选项。如果您取消选择此选项,Canvas 将只对交互式 Data Wrangler 数据流中使用的数据集样本应用转换。
注意
如果您只导出数据样本,Canvas 会在应用程序中处理您的数据,而不会为您创建远程作业。
-
如果您希望 Canvas 自动确定是使用 Canvas 应用程序内存还是 EMR Serverless 作业来运行作业,请选中自动作业配置选项。如果您取消选择此选项并手动配置作业,则可以选择使用 EMR Serverless 或 SageMaker 处理作业。有关如何配置 EMR Serverless 或 SageMaker 处理作业的说明,请在导出数据之前参阅此过程之后的部分。
-
选择导出。
以下过程说明在将完整数据集导出到 Amazon S3 时,如何手动配置 EMR Serverless 或 P SageMaker rocessing 的远程任务设置。
要在导出到 Amazon S3 时配置 EMR Serverless 作业,请执行以下操作:
-
在导出到 Amazon S3 侧面板中,关闭自动作业配置选项。
-
选择 EMR Serverless。
-
在作业名称中,输入 EMR Serverless 作业的名称。名称可以包含字母、数字、连字符和下划线。
-
在 IAM 角色中,输入用户的 IAM 执行角色。此角色应拥有运行 EMR Serverless 应用程序所需的权限。有关更多信息,请参阅 向用户授予在整个 ML 生命周期中使用大数据的权限。
-
(可选)对于 KMS 密钥,请指定用于加密任务日志的 AWS KMS key 密钥 ID 或 ARN。如果不输入密钥,Canvas 会使用 EMR Serverless 的默认密钥。
-
(可选)在监控配置中,输入要向其发布 CloudWatch 日志的 Amazon Logs 日志组的名称。
-
(可选)对于标签,为 EMR Serverless 作业添加由键值对组成的元数据标签。这些标签可用于对作业进行分类和搜索。
-
选择 Export 以启动任务。
导出数据后,您应该能在指定的 Amazon S3 位置查找经过全面处理的数据集。