使用 SageMaker AI Python SDK 示例创建笔记本作业 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker AI Python SDK 示例创建笔记本作业

要使用 SageMaker Python 运行独立笔记本SDK,您需要创建一个 Notebook Job 步骤,将其附加到管道中,然后使用 Pipelines 提供的实用程序按需运行作业,或者可以选择安排一个或多个未来的作业。以下各节介绍了创建按需或计划笔记本作业以及跟踪运行的基本步骤。此外,如果您需要将参数传递给笔记本作业或在笔记本EMR中连接到 Amazon,请参阅以下讨论,在这种情况下,需要对 Jupyter 笔记本进行额外准备。您还可以为 NotebookJobStep 的参数子集应用默认值,这样就不必在每次创建笔记本作业步骤时都指定参数。

要查看演示如何使用 SageMaker AI Python 安排笔记本作业的示例笔记本SDK,请参阅笔记本作业示例笔记本

创建笔记本作业的步骤

您可以创建一个立即运行或按计划运行的笔记本作业。以下说明介绍了这两种方法。

要计划笔记本作业,请完成以下基本步骤:
  1. 创建一个 NotebookJobStep 实例。有关NotebookJobStep参数的详细信息,请参阅 sagemaker.workflow.steps。 NotebookJobStep。至少可以提供以下参数,如以下代码片段所示:

    重要

    如果您使用 SageMaker Python 安排笔记本作业SDK,则只能指定某些图像来运行笔记本作业。有关更多信息,请参阅 SageMaker AI Python SDK 笔记本作业的图像限制

    notebook_job_step = NotebookJobStep( input_notebook=input-notebook, image_uri=image-uri, kernel_name=kernel-name )
  2. 创建一个管道,将 NotebookJobStep 作为一个步骤,如以下代码所示:

    pipeline = Pipeline( name=pipeline-name, steps=[notebook_job_step], sagemaker_session=sagemaker-session, )
  3. 按需运行管道,或选择性地安排未来的管道运行。要启动立即运行,请使用以下命令:

    execution = pipeline.start( parameters={...} )

    您还可以选择安排未来单次管道运行或按预定时间间隔安排多次运行。您可以在 PipelineSchedule 中指定日程表,然后用 put_triggers 将时间表对象传递给管道。有关管道调度的更多信息,请参阅 使用 SageMaker Python 安排管道 SDK

    以下示例计划您的管道在 2023 年 12 月 12 日 10:31:32 UTC 运行一次。

    my_schedule = PipelineSchedule( name="my-schedule“, at=datetime(year=2023, month=12, date=25, hour=10, minute=31, second=32) ) pipeline.put_triggers(triggers=[my_schedule])

    以下示例将您的管道安排在 2022 年至 2023 年期间的每个月最后一个星期五上午 10:15 运行。UTC有关基于 cron 的调度的详细信息,请参阅基于 cron 的调度

    my_schedule = PipelineSchedule( name="my-schedule“, cron="15 10 ? * 6L 2022-2023" ) pipeline.put_triggers(triggers=[my_schedule])
  4. (可选)在 “笔记本作业” 控制面板中查看您的 SageMaker 笔记本作业。您为笔记本作业步骤的 tags 参数提供的值可控制 Studio UI 捕捉和显示作业的方式。有关更多信息,请参阅 在 Studio UI 面板上查看笔记本作业

在 Studio UI 面板上查看笔记本作业

如果您指定了某些标签,作为管道步骤创建的笔记本作业就会出现在 Studio 笔记本作业控制面板中。

注意

只有在 Studio 或本地 JupyterLab 环境中创建的笔记本作业才能创建作业定义。因此,如果您使用 SageMaker Python 创建笔记本作业SDK,则在 “笔记本作业” 仪表板中看不到作业定义。不过,您可以按照 查看笔记本作业 中的说明查看笔记本作业。

您可以使用以下标签控制哪些团队成员可以查看您的笔记本作业:

  • 要将笔记本显示到域中的所有用户配置文件或空格,请使用域添加域标签。下面展示了一个示例:

    • 键:sagemaker:domain-name,值:d-abcdefghij5k

  • 要向域中的某个用户配置文件显示笔记本作业,请同时添加用户配置文件和域标签。用户配置文件标签示例如下:

    • 键:sagemaker:user-profile-name,值:studio-user

  • 要将笔记本作业显示为空格,请同时添加空格和域标签。空格标签示例如下:

    • 键:sagemaker:shared-space-name,值:my-space-name

  • 如果不附加任何域、用户配置文件或空间标签,Studio UI 就不会显示管道步骤创建的笔记本作业。在这种情况下,您可以在训练作业管理控制台中查看基础训练作业,也可以在管道执行列表中查看状态。

一旦设置了在控制面板上查看作业所需的标签,请参阅 查看笔记本作业 了解如何查看作业和下载输出结果。

在 Studio 中查看管道图

由于您的笔记本作业步骤是管道的一部分,因此您可以在 Studio 中查看工作流图 (DAG)。在管道图中,您可以查看管道运行的状态,并跟踪管道沿线。有关详细信息,请参阅查看管道运行的详细信息

向笔记本传递参数

如果您要向笔记本作业传递参数(使用 NotebookJobStepparameters 参数),则需要准备好接收参数的输入笔记本。

基于 Papermill 的笔记本作业执行器会搜索带有 parameters 标记的 Jupyter 单元,并在该单元后立即应用新参数或参数重载。有关详细信息,请参阅参数化笔记本

完成此步骤后,将参数传递给 NotebookJobStep,如下例所示:

notebook_job_parameters = { "company": "Amazon" } notebook_job_step = NotebookJobStep( image_uri=image-uri, kernel_name=kernel-name, role=role-name, input_notebook=input-notebook, parameters=notebook_job_parameters, ... )

在输入笔记本中连接到 Amazon EMR 集群

如果您在 Studio 中通过 Jupyter 笔记本连接到亚马逊EMR集群,则可能需要进一步修改您的 Jupyter 笔记本。如果您需要在笔记本中执行以下任务,请参阅 从您的笔记本电脑连接到 Amazon EMR 集群

  • 将参数传递到您的 Amazon EMR 连接命令中。Studio 使用 Papermill 来运行笔记本。在 SparkMagic内核中,由于 Papermill 向其传递信息的方式,您传递给 Amazon EMR 连接命令的参数可能无法按预期工作。 SparkMagic

  • 将用户证书传递给 Kerberos 或经过HTTP基本身份验证的 Amazon 集群。LDAP EMR您必须通过 AWS Secrets Manager传递用户凭证。

设置默认选项

SageMaker AI SDK 为您提供了为部分参数设置默认值的选项,这样您就不必在每次创建NotebookJobStep实例时都指定这些参数。这些参数是 roles3_root_uris3_kms_keyvolume_kms_keysubnetssecurity_group_ids。使用 A SageMaker I 配置文件为该步骤设置默认值。有关 SageMaker AI 配置文件的信息,请参阅在 SageMaker Python 中配置和使用默认值SDK。

要设置笔记本作业默认值,请将新的默认值应用到配置文件的笔记本作业部分,如下文所示:

SageMaker: PythonSDK: Modules: NotebookJob: RoleArn: 'arn:aws:iam::555555555555:role/IMRole' S3RootUri: 's3://amzn-s3-demo-bucket/my-project' S3KmsKeyId: 's3kmskeyid' VolumeKmsKeyId: 'volumekmskeyid1' VpcConfig: SecurityGroupIds: - 'sg123' Subnets: - 'subnet-1234'