本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建计划以自动处理新数据
注意
以下部分仅适用于 SageMaker 处理作业。如果您使用默认 Canvas 设置或 EMR Serverless 创建远程作业以将转换应用于完整数据集,则本节不适用。
如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理任务的更多信息,请参阅导出到 Amazon S3。
创建任务时,必须指定有权创建该任务的IAM角色。您可以使用该AmazonSageMakerCanvasDataPrepFullAccess策略来添加权限。
将以下信任策略添加到角色中 EventBridge 以允许代入该角色。
{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
重要
当您创建计划时,Data Wrangler 会创建一个输入。eventRule
EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。
有关 EventBridge 定价的信息,请参阅 Amazon EventBridge 定价
使用以下方法之一设置计划:
以下各节提供了在将数据导出到 Amazon S3 的同时填写 “ SageMaker处理任务” 设置时安排任务的程序。以下所有说明均从 SageMaker 处理作业设置的 “关联计划” 部分开始。
您可以使用 SageMaker AWS Management Console 来查看计划运行的作业。您的处理任务在管道中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道的详细信息。
通过以下过程查看您已计划的作业。
要查看您已计划的作业,请执行以下操作。
-
打开 Amazon SageMaker Studio 经典版。
-
开放管道
-
查看用于您已创建的作业的管道。
运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为
housing-data-feature-enginnering
的作业,则管道的名称为canvas-data-prep-housing-data-feature-engineering
。 -
选择包含您的作业的管道。
-
查看管道的状态。管道状态为成功时表示已成功运行处理作业。
要停止运行处理作业,请执行以下操作:
要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则。
您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参见StopPipelineExecution。有关删除管道的信息,请参阅DeletePipeline。