使用 SageMaker AI Python SDK 示例创建笔记本作业

聚焦模式

使用 SageMaker AI Python SDK 示例创建笔记本作业 - 亚马逊 SageMaker AI

创建笔记本作业的步骤在 Studio UI 面板上查看笔记本作业在 Studio 中查看管道图向笔记本传递参数在输入笔记本中连接 Amazon EMR 集群设置默认选项

要使用 SageMaker Python SDK 运行独立笔记本，您需要创建一个 Notebook Job 步骤，将其附加到管道中，然后使用 Pipelines 提供的实用程序按需运行作业，或者可以选择安排一个或多个未来的作业。以下各节介绍了创建按需或计划笔记本作业以及跟踪运行的基本步骤。此外，如果需要向笔记本作业传递参数或在笔记本中连接 Amazon EMR，请参阅下面的讨论--在这些情况下，需要对 Jupyter Notebook 进行额外的准备。您还可以为 NotebookJobStep 的参数子集应用默认值，这样就不必在每次创建笔记本作业步骤时都指定参数。

要查看演示如何使用 SageMaker AI Python SDK 安排笔记本作业的示例笔记本，请参阅笔记本作业示例笔记本。

创建笔记本作业的步骤

您可以创建一个立即运行或按计划运行的笔记本作业。以下说明介绍了这两种方法。

要计划笔记本作业，请完成以下基本步骤：

创建一个 NotebookJobStep 实例。有关NotebookJobStep参数的详细信息，请参阅 sagemaker.workflow.steps。 NotebookJobStep。至少可以提供以下参数，如以下代码片段所示：

重要
如果您使用 SageMaker Python SDK 安排笔记本作业，则只能指定某些图像来运行笔记本作业。有关更多信息，请参阅 SageMaker AI Python SDK 笔记本作业的图像限制。
```
notebook_job_step = NotebookJobStep(
    input_notebook=input-notebook,
    image_uri=image-uri,
    kernel_name=kernel-name
)
```

创建一个管道，将 NotebookJobStep 作为一个步骤，如以下代码所示：


pipeline = Pipeline(
    name=pipeline-name,
    steps=[notebook_job_step],
    sagemaker_session=sagemaker-session,
)

按需运行管道，或选择性地安排未来的管道运行。要启动立即运行，请使用以下命令：
```
execution = pipeline.start(
    parameters={...}
)
```
您还可以选择安排未来单次管道运行或按预定时间间隔安排多次运行。您可以在 PipelineSchedule 中指定日程表，然后用 put_triggers 将时间表对象传递给管道。有关管道调度的更多信息，请参阅使用 SageMaker Python 软件开发工具包安排管道。

下面的示例安排管道在 2023 年 12 月 12 日 10:31:32 UTC 运行一次。
```
my_schedule = PipelineSchedule(  
    name="my-schedule“,  
    at=datetime(year=2023, month=12, date=25, hour=10, minute=31, second=32) 
)  
pipeline.put_triggers(triggers=[my_schedule])
```
以下示例将管道调度为在 2022 年至 2023 年期间每月最后一个星期五上午 10:15 UTC 运行。有关基于 cron 的调度的详细信息，请参阅基于 cron 的调度。
```
my_schedule = PipelineSchedule(  
    name="my-schedule“,  
    cron="15 10 ? * 6L 2022-2023"
)  
pipeline.put_triggers(triggers=[my_schedule])
```
（可选）在 “笔记本作业” 控制面板中查看您的 SageMaker 笔记本作业。您为笔记本作业步骤的 tags 参数提供的值可控制 Studio UI 捕捉和显示作业的方式。有关更多信息，请参阅在 Studio UI 面板上查看笔记本作业。

在 Studio UI 面板上查看笔记本作业

如果您指定了某些标签，作为管道步骤创建的笔记本作业就会出现在 Studio 笔记本作业控制面板中。

注意

只有在 Studio 或本地 JupyterLab 环境中创建的笔记本作业才能创建作业定义。因此，如果您使用 SageMaker Python SDK 创建笔记本作业，则在 “笔记本作业” 控制面板中看不到作业定义。不过，您可以按照查看笔记本作业中的说明查看笔记本作业。

您可以使用以下标签控制哪些团队成员可以查看您的笔记本作业：

要将笔记本显示到域中的所有用户配置文件或空格，请使用域添加域标签。下面展示了一个示例：
- 键：sagemaker:domain-name，值：d-abcdefghij5k
要向域中的某个用户配置文件显示笔记本作业，请同时添加用户配置文件和域标签。用户配置文件标签示例如下：
- 键：sagemaker:user-profile-name，值：studio-user
要将笔记本作业显示为空格，请同时添加空格和域标签。空格标签示例如下：
- 键：sagemaker:shared-space-name，值：my-space-name
如果不附加任何域、用户配置文件或空间标签，Studio UI 就不会显示管道步骤创建的笔记本作业。在这种情况下，您可以在训练作业管理控制台中查看基础训练作业，也可以在管道执行列表中查看状态。

一旦设置了在控制面板上查看作业所需的标签，请参阅查看笔记本作业了解如何查看作业和下载输出结果。

在 Studio 中查看管道图

由于笔记本作业步骤是管道的一部分，因此可以在 Studio 中查看管道图 (DAG)。在管道图中，您可以查看管道运行的状态，并跟踪管道沿线。有关详细信息，请参阅查看管道运行的详细信息。

向笔记本传递参数

如果您要向笔记本作业传递参数（使用 NotebookJobStep 的 parameters 参数），则需要准备好接收参数的输入笔记本。

基于 Papermill 的笔记本作业执行器会搜索带有 parameters 标记的 Jupyter 单元，并在该单元后立即应用新参数或参数重载。有关详细信息，请参阅参数化笔记本。

完成此步骤后，将参数传递给 NotebookJobStep，如下例所示：


notebook_job_parameters = {
    "company": "Amazon"
}

notebook_job_step = NotebookJobStep(
    image_uri=image-uri,
    kernel_name=kernel-name,
    role=role-name,
    input_notebook=input-notebook,
    parameters=notebook_job_parameters,
    ...
)

在输入笔记本中连接 Amazon EMR 集群

如果您通过 Studio 中的 Jupyter Notebook 连接到 Amazon EMR 集群，可能需要进一步修改 Jupyter Notebook。如果您需要在笔记本中执行以下任务，请参阅从笔记本连接到 Amazon EMR 集群：

将参数传递到 Amazon EMR 连接命令中。Studio 使用 Papermill 来运行笔记本。在 SparkMagic内核中，由于 Papermill 向其传递信息的方式，您传递给 Amazon EMR 连接命令的参数可能无法按预期工作。 SparkMagic
将用户凭证传递给经过 Kerberos、LDAP 或 HTTP Basic Auth 身份验证的 Amazon EMR 集群。您必须通过 AWS Secrets Manager传递用户凭证。

设置默认选项

SageMaker AI SDK 为您提供了为部分参数设置默认值的选项，这样您就不必在每次创建NotebookJobStep实例时都指定这些参数。这些参数是 role、s3_root_uri、s3_kms_key、volume_kms_key、subnets 和 security_group_ids。使用 A SageMaker I 配置文件为该步骤设置默认值。有关 SageMaker AI 配置文件的信息，请参阅在 SageMaker Python SDK 中配置和使用默认值。。

要设置笔记本作业默认值，请将新的默认值应用到配置文件的笔记本作业部分，如下文所示：


SageMaker:
  PythonSDK:
    Modules:
      NotebookJob:
        RoleArn: 'arn:aws:iam::555555555555:role/IMRole'
        S3RootUri: 's3://amzn-s3-demo-bucket/my-project'
        S3KmsKeyId: 's3kmskeyid'
        VolumeKmsKeyId: 'volumekmskeyid1'
        VpcConfig:
          SecurityGroupIds:
            - 'sg123'
          Subnets:
            - 'subnet-1234'

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

在哪里可以创建笔记本作业

在 Studio 中创建笔记本作业

本页内容

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

使用 SageMaker AI Python SDK 示例创建笔记本作业

主题

创建笔记本作业的步骤

要计划笔记本作业，请完成以下基本步骤：

重要

在 Studio UI 面板上查看笔记本作业

注意

在 Studio 中查看管道图

向笔记本传递参数

在输入笔记本中连接 Amazon EMR 集群

设置默认选项

本页内容

Related resources

此页内容对您是否有帮助？

Related resources

下一主题：

上一主题：

需要帮助吗？