本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
借助 SageMaker Amazon AI,您可以在创建数据集、执行数据转换、根据数据构建模型以及将模型部署到终端节点进行推理时管理整个 ML 工作流程。如果定期执行工作流程中的任何子步骤,也可以选择按计划运行这些步骤。例如,你可能想在 SageMaker Canvas 中安排一个作业,每小时对新数据运行一次转换。在另一种情况下,您可能希望每周安排一次作业,以监控已部署模型的模型漂移。您可以指定任何时间间隔的循环计划--可以每秒、每分钟、每天、每周、每月或每月第三个星期五下午 3 点重复一次。
以下场景总结了根据使用情况可供选择的方案。
使用场景 1:在无代码环境中构建和调度 ML 工作流程。对于初学者或 SageMaker AI 新手,您可以使用 Amazon SageMaker Canvas 来构建机器学习工作流程,也可以使用基于 Canvas 用户界面的计划程序创建计划运行。
使用场景 2:在单个 Jupyter Notebook 中构建工作流程,并使用无代码调度程序。有经验的 ML 工作者可以使用代码在 Jupyter Notebook 中构建他们的 ML 工作流程,并使用笔记本作业工具提供的无代码调度选项。如果您的 ML 工作流程由多个 Jupyter Notebook 组成,您可以使用使用场景 3 中描述的 Pipelines Python SDK 中的调度功能。
使用场景 3:使用 Pipelines 构建并调度 ML 工作流程。高级用户可以使用 Pipelines 中提供的亚马逊 SageMaker Python 软件开发工具包
或亚马逊 EventBridge 计划选项。您可以构建一个机器学习工作流程,其中包括使用各种 SageMaker AI 功能和 AWS 服务(例如 Amazon EMR)进行操作的步骤。
描述符 | 应用场景 1 | 应用场景 2 | 使用案例 3 |
---|---|---|---|
SageMaker 人工智能功能 | Amazon SageMaker Canvas 数据处理和机器学习工作流程计划 | 笔记本作业时间表小工具(用户界面) | 管道 Python SDK 调度选项 |
描述 | 借助 Amazon SageMaker Canvas,您可以安排数据处理步骤的自动运行,并在单独的过程中安排数据集的自动更新。您还可以通过设置配置,在特定数据集更新时运行批量预测,从而间接安排整个 ML 工作流程。对于自动数据处理和数据集更新,C SageMaker anvas 提供了一种基本表单,您可以在其中选择开始时间和日期以及两次运行之间的时间间隔(如果您计划数据处理步骤,则可以选择 cron 表达式)。有关如何安排数据处理步骤的更多信息,请参阅 创建自动处理新数据的计划。有关如何安排数据集和批量预测更新的更多信息,请参阅 如何管理自动化。 | 如果在单个 Jupyter Notebook 中构建了数据处理和管道工作流程,则可以使用笔记本作业工具按需或按计划运行笔记本。笔记本作业 Widget 会显示一个基本表单,您可在其中指定计算类型、运行计划和可选自定义设置。您可以通过选择时间间隔或插入 cron 表达式来定义运行计划。该小组件会自动安装在 Studio 中,或者您可以执行其他安装以在本地 JupyterLab 环境中使用此功能。有关笔记本作业的更多信息,请参阅 SageMaker 笔记本职位。 | 如果您使用 Pipelines 实现了机器学习工作流程,则可以使用 SageMaker AI SDK 中的计划功能。您的管道可以包括微调、数据处理和部署等步骤。管道支持两种计划管道的方式。您可以创建 Amazon EventBridge 规则或使用 SageMaker AI SDK PipelineSchedule |
优化 | 为 C SageMaker anvas ML 工作流程提供计划选项 | 为基于 Jupyter Notebook 的 ML 工作流程提供基于 UI 的调度选项 | 为 ML 工作流程提供 SageMaker AI SDK 或 EventBridge 计划选项 |
注意事项 | 您可以使用 Canvas 无代码框架安排工作流程,但数据集更新和批量转换更新最多可处理 5GB 数据。 | 您可以使用基于用户界面的计划表安排一个笔记本,但不能在同一作业中安排多个笔记本。要调度多个笔记本,请使用使用场景 3 中描述的基于 Pipelines SDK 代码的解决方案。 | 您可以使用 Pipelines 提供的更高级(基于 SDK 的)调度功能,但需要参考 API 文档来指定正确的选项,而不是从基于用户界面的选项菜单中选择。 |
建议的环境 | 亚马逊 SageMaker Canvas | 工作室,当地 JupyterLab 环境 | 工作室、本地 JupyterLab 环境、任何代码编辑器 |
其他资源
SageMaker AI 提供了以下用于安排工作流程的其他选项。
什么是 Amazon EventBridge 日程安排? 。本节中讨论的计划选项包括 C SageMaker anvas、Studio 和 SageMaker AI Python SDK 中提供的预建选项。所有选项都扩展了 Amazon 的功能 EventBridge,您还可以使用创建自己的自定义日程安排解决方案 EventBridge。
特征处理器管道的计划执行和基于事件的执行。 借助 Amazon F SageMaker eature Store 功能处理,您可以将要素处理管道配置为按计划运行或作为其他 AWS 服务事件的结果运行。