本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
注意
以下部分仅适用于 SageMaker 处理作业。如果您使用默认的 Canvas 设置或 EMR Serverless 创建了远程作业来对完整数据集进行转换,则本节内容不适用。
如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理作业的更多信息,请参阅 导出到 Amazon S3。
创建作业时,必须指定有权创建该作业的 IAM 角色。您可以使用该AmazonSageMakerCanvasDataPrepFullAccess策略来添加权限。
将以下信任策略添加到角色中 EventBridge 以允许代入该角色。
{
"Effect": "Allow",
"Principal": {
"Service": "events.amazonaws.com"
},
"Action": "sts:AssumeRole"
}
重要
当您创建计划时,Data Wrangler 会创建一个输入。eventRule
EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。
有关 EventBridge 定价的信息,请参阅 Amazon EventBridge 定价
使用以下方法之一设置计划:
以下各节提供了在将数据导出到 Amazon S3 的同时填写 SageMaker AI 处理任务设置时安排任务的程序。以下所有说明均从 “ SageMaker 处理作业设置” 的 “关联计划” 部分开始。
使用以下步骤创建带有 CRON 表达式的计划。
-
在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。
-
在 “SageMaker 处理作业设置” 中,打开 “关联计划” 部分,然后选择 “创建新计划”。
-
此时将打开创建新角色对话框。对于计划名称,指定计划的名称。
-
对于运行频率,选择 CRON。
-
在分钟、小时、日、月和星期字段中,输入有效的 CRON 表达式值。
-
选择创建。
-
(可选)选择添加其他计划以按其他计划运行作业。
注意
您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。
-
选择下列选项之一:
-
计划并立即运行:作业会立即运行,随后按计划运行。
-
仅限计划:作业仅按您指定的计划运行。
-
-
填写完其他导出作业设置后,选择导出。
您可以使用 A SageMaker I AWS Management Console 查看计划运行的作业。处理作业在 Pipelines 中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道详情。
通过以下过程查看您已计划的作业。
要查看您已计划的作业,请执行以下操作。
-
打开 Amazon SageMaker Studio 经典版。
-
打开 Pipelines
-
查看用于您已创建的作业的管道。
运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为
housing-data-feature-enginnering
的作业,则管道的名称为canvas-data-prep-housing-data-feature-engineering
。 -
选择包含您的作业的管道。
-
查看管道的状态。管道状态为成功时表示已成功运行处理作业。
要停止运行处理作业,请执行以下操作:
要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则。
您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参见StopPipelineExecution。有关删除管道的信息,请参阅DeletePipeline。