本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建自动处理新数据的计划
注意
以下部分仅适用于 SageMaker 处理作业。如果您使用默认的 Canvas 设置或 EMR Serverless 创建了远程作业来对完整数据集进行转换,则本节内容不适用。
如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息,请参阅 导出到 Amazon S3。
创建作业时,必须指定有权创建该作业的 IAM 角色。您可以使用该AmazonSageMakerCanvasDataPrepFullAccess策略来添加权限。
将以下信任策略添加到角色中 EventBridge 以允许代入该角色。
{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
重要
当您创建计划时,Data Wrangler 会创建一个输入。eventRule
EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。
有关 EventBridge 定价的信息,请参阅 Amazon EventBridge 定价
使用以下方法之一设置计划:
以下各节提供了在将数据导出到 Amazon S3 的同时填写 SageMaker AI 处理任务设置时安排任务的程序。以下所有说明均从 “ SageMaker 处理作业设置” 的 “关联计划” 部分开始。
您可以使用 A SageMaker I AWS Management Console 查看计划运行的作业。处理作业在 Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道详情。
通过以下过程查看您已计划的作业。
要查看您已计划的作业,请执行以下操作。
-
打开 Amazon SageMaker Studio 经典版。
-
打开 Pipelines
-
查看用于您已创建的作业的管道。
运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为
housing-data-feature-enginnering
的作业,则管道的名称为canvas-data-prep-housing-data-feature-engineering
。 -
选择包含您的作业的管道。
-
查看管道的状态。管道状态为成功时表示已成功运行处理作业。
要停止运行处理作业,请执行以下操作:
要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则。
您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参见StopPipelineExecution。有关删除管道的信息,请参阅DeletePipeline。