本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
安排您的机器学习工作流程
借助 Amazon, SageMaker 您可以在创建数据集、执行数据转换、根据数据构建模型以及将模型部署到终端节点进行推理时管理整个 ML 工作流程。如果您定期执行工作流程中的任何一部分步骤,也可以选择按计划运行这些步骤。例如,你可能想在 SageMaker Canvas 中安排一个作业,每小时对新数据运行一次转换。在另一种情况下,您可能需要安排每周一次的作业来监控已部署模型的模型偏差。您可以指定任意时间间隔的重复计划,可以每秒、每分钟、每天、每周、每月或每月的第三个星期五下午 3 点进行迭代。
以下场景根据您的用例总结了可供您使用的选项。
用例 1:在无代码环境中构建和安排机器学习工作流程。对于初学者或新手 SageMaker,您可以使用 Amazon SageMaker Canvas 来构建机器学习工作流程,也可以使用基于 Canvas 用户界面的计划程序创建计划运行。
用例 2:在单个 Jupyter 笔记本中构建工作流程并使用无代码调度程序。经验丰富的机器学习从业者可以使用代码在 Jupyter 笔记本中构建机器学习工作流程,并使用 “笔记本作业” 控件中提供的无代码计划选项。如果您的机器学习工作流程由多个 Jupyter 笔记本组成,则可以使用用例 3 中SDK描述的 Pipelines Python 中的调度功能。
用例 3:使用 Pi pelines 构建和安排机器学习工作流程。高级用户可以使用 Pipel ines 中提供的亚马逊 SageMaker Python SDK
或亚马逊 EventBridge 计划选项。您可以构建一个由步骤组成的机器学习工作流程,这些步骤包括使用各种 SageMaker 功能和 AWS 服务(例如 Amazon)的操作EMR。
应用场景 1 | 应用场景 2 | 使用案例 3 | |
---|---|---|---|
SageMaker 特征 | Amazon SageMaker Canvas 数据处理和机器学习工作流程计划 | 笔记本作业日程安排控件 (UI) | 管道 Python SDK 调度选项 |
描述 | 借助 Amazon SageMaker Canvas,您可以安排数据处理步骤的自动运行,并在单独的过程中安排数据集的自动更新。您还可以通过设置配置来间接安排整个机器学习工作流程,该配置可在特定数据集更新时运行批量预测。对于自动数据处理和数据集更新,C SageMaker anvas 提供了一种基本表单,您可以在其中选择开始时间和日期以及两次运行之间的时间间隔(如果您计划数据处理步骤,则可以选择 cron 表达式)。有关如何安排数据处理步骤的更多信息,请参阅创建计划以自动处理新数据。有关如何安排数据集和批量预测更新的更多信息,请参阅如何管理自动化。 | 如果您在单个 Jupyter 笔记本中构建了数据处理和管道工作流程,则可以使用 “笔记本作业” 控件按需或按计划运行笔记本。“笔记本作业” 小组件显示一个基本表单,您可以在其中指定计算类型、运行计划和可选的自定义设置。您可以通过选择基于时间的时间间隔或插入 cron 表达式来定义运行计划。该小组件会自动安装在 Studio 中,或者您可以执行其他安装以在本地 JupyterLab 环境中使用此功能。有关笔记本作业的更多信息,请参阅SageMaker 笔记本职位。 | SageMaker SDK如果您使用 Pipelines 实现了机器学习工作流程,则可以使用中的计划功能。您的管道可能包括微调、数据处理和部署等步骤。管道支持两种调度管道的方法。您可以创建 Amazon EventBridge 规则或使用 SageMaker SDKPipelineSchedule |
针对 | 为 C SageMaker anvas ML 工作流程提供计划选项 | 为基于 Jupyter 笔记本的 ML 工作流程提供基于 UI 的调度选项 | 为 ML 工作流程提供 SageMaker SDK或 EventBridge 计划选项 |
注意事项 | 您可以使用 Canvas 无代码框架安排工作流程,但数据集更新和批量转换更新最多可以处理 5GB 的数据。 | 您可以使用基于用户界面的计划表单安排一个笔记本,但不能将多个笔记本安排在同一个作业中。要安排多个笔记本,请使用用例 3 中描述SDK的基于 Pipelines 代码的解决方案。 | 你可以使用 Pipelines 提供的更高级(SDK基于)的调度功能,但你需要参考API文档来指定正确的选项,而不是从基于用户界面的选项菜单中进行选择。 |
推荐环境 | 亚马逊 SageMaker Canvas | 工作室,当地 JupyterLab 环境 | Studio、本地 JupyterLab 环境、任何代码编辑器 |
其他资源
SageMaker 提供了以下用于安排工作流程的其他选项。
什么是 Amazon EventBridge 日程安排? 。本节中讨论的日程安排选项包括 C SageMaker anvas、Studio 和 SageMaker Python SDK 中提供的预建选项。所有选项都扩展了 Amazon 的功能 EventBridge,您还可以使用创建自己的自定义日程安排解决方案 EventBridge。
特征处理器管道的计划执行和基于事件的执行。 借助 Amazon F SageMaker eature Store 功能处理,您可以将要素处理管道配置为按计划运行或作为其他 AWS 服务事件的结果运行。