创建计划以自动处理新数据 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建计划以自动处理新数据

注意

以下部分仅适用于 SageMaker 处理作业。如果您使用默认 Canvas 设置或 EMR Serverless 创建远程作业以将转换应用于完整数据集,则本节不适用。

如果您要定期处理数据,则可以创建一个计划来自动运行处理作业。例如,您可以创建一个计划,该计划在获得新数据时自动运行处理作业。有关处理任务的更多信息,请参阅导出到 Amazon S3

创建任务时,必须指定有权创建该任务的IAM角色。您可以使用该AmazonSageMakerCanvasDataPrepFullAccess策略来添加权限。

将以下信任策略添加到角色中 EventBridge 以允许代入该角色。

{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
重要

当您创建计划时,Data Wrangler 会创建一个输入。eventRule EventBridge您需要为创建的事件规则以及用于运行处理作业的实例都支付费用。

有关 EventBridge 定价的信息,请参阅 Amazon EventBridge 定价。有关处理任务定价的信息,请参阅 Amazon SageMaker 定价

使用以下方法之一设置计划:

  • CRON表达式

    注意

    Data Wrangler 不支持以下表达式:

    • LW#

    • 天的缩写

    • 月份的缩写

  • RATE表达式

  • 重复 – 设置每小时或每天运行作业的时间间隔。

  • 特定时间 – 设置运行作业的特定日期和时间。

以下各节提供了在将数据导出到 Amazon S3 的同时填写 “ SageMaker处理任务” 设置时安排任务的程序。以下所有说明均从 SageMaker 处理作业设置的 “关联计划” 部分开始。

CRON

使用以下步骤创建带有CRON表达式的计划。

  1. 在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。

  2. SageMaker 处理作业设置中,打开关联计划部分,然后选择创建新计划

  3. 将打开 “创建新计划” 对话框。对于计划名称,指定计划的名称。

  4. 对于 “运行频率”,选择CRON

  5. 在 “分钟”、“小时”、“”、“” 和 “星期几” 字段中,输入有效的CRON表达式值。

  6. 选择创建

  7. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  8. 选择以下操作之一:

    • 立即安排并运行-作业立即运行,随后按计划运行。

    • 仅限计划-作业仅按您指定的计划运行。

  9. 填写完其余的出任务设置后,选择 “导出”。

RATE

使用以下步骤创建带有RATE表达式的计划。

  1. 在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。

  2. SageMaker 处理作业设置中,打开关联计划部分,然后选择创建新计划

  3. 将打开 “创建新计划” 对话框。对于计划名称,指定计划的名称。

  4. 对于运行频率,选择 Rate

  5. 对于,指定一个整数。

  6. 对于匹配程序,选择以下项之一:

    • 分钟

    • 小时

  7. 选择创建

  8. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  9. 选择以下操作之一:

    • 立即安排并运行-作业立即运行,随后按计划运行。

    • 仅限计划-作业仅按您指定的计划运行。

  10. 填写完其余的出任务设置后,选择 “导出”。

Recurring

通过以下步骤创建定期运行作业的计划。

  1. 在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。

  2. SageMaker 处理作业设置中,打开关联计划部分,然后选择创建新计划

  3. 将打开 “创建新计划” 对话框。对于计划名称,指定计划的名称。

  4. 对于 “运行频率”,选择 “重复”。

  5. 对于每 x 小时,指定作业在一天中运行的每小时频率。有效值为 123 范围的整数(含)。

  6. 对于日期,选择以下选项之一:

    • 每天

    • 周末

    • 工作日

    • 选择日期

    1. (可选)如果您选择了选择日期,请选择在一周中的哪几天运行作业。

    注意

    计划会每天重置。如果您计划每五小时运行一次作业,则作业将在一天中的以下时间运行:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  7. 选择创建

  8. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  9. 选择以下操作之一:

    • 立即安排并运行-作业立即运行,随后按计划运行。

    • 仅限计划-作业仅按您指定的计划运行。

  10. 填写完其余的出任务设置后,选择 “导出”。

Specific time

通过以下过程创建在特定时间运行作业的计划。

  1. 在 “导出到 Amazon S3” 侧面板中,确保已关闭自动任务配置开关,并选择了 “SageMaker 处理” 选项。

  2. SageMaker 处理作业设置中,打开关联计划部分,然后选择创建新计划

  3. 将打开 “创建新计划” 对话框。对于计划名称,指定计划的名称。

  4. 对于运行频率,选择开始时间

  5. 开始时间中,以UTC格式输入时间(例如,09:00)。开始时间默认为您所在的时区。

  6. 对于日期,选择以下选项之一:

    • 每天

    • 周末

    • 工作日

    • 选择日期

    1. (可选)如果您选择了选择日期,请选择在一周中的哪几天运行作业。

  7. 选择创建

  8. (可选)选择添加其他计划以按其他计划运行作业。

    注意

    您最多可以关联两个计划。这些计划是独立的,除非时间重叠,否则不会相互影响。

  9. 选择以下操作之一:

    • 立即安排并运行-作业立即运行,随后按计划运行。

    • 仅限计划-作业仅按您指定的计划运行。

  10. 填写完其余的出任务设置后,选择 “导出”。

您可以使用 SageMaker AWS Management Console 来查看计划运行的作业。您的处理任务在管道中运行。每个处理作业都有各自的管道。作业作为管道中的一个处理步骤运行。您可以查看已在管道中创建的计划。有关查看管道的信息,请参阅 查看管道的详细信息

通过以下过程查看您已计划的作业。

要查看您已计划的作业,请执行以下操作。

  1. 打开 Amazon SageMaker Studio 经典版。

  2. 开放管道

  3. 查看用于您已创建的作业的管道。

    运行作业的管道使用作业名称作为前缀。例如,如果您创建了一个名为 housing-data-feature-enginnering 的作业,则管道的名称为 canvas-data-prep-housing-data-feature-engineering

  4. 选择包含您的作业的管道。

  5. 查看管道的状态。管道状态成功时表示已成功运行处理作业。

要停止运行处理作业,请执行以下操作:

要停止运行处理作业,请删除指定计划的事件规则。删除事件规则时,会使与该计划关联的所有作业停止运行。有关删除规则的信息,请参阅禁用或删除 Amazon EventBridge 规则

您还可以停止和删除与计划关联的管道。有关停止管道的信息,请参见StopPipelineExecution。有关删除管道的信息,请参阅DeletePipeline