调试生命周期配置 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

调试生命周期配置

以下主题介绍了如何获取生命周期配置的相关信息并进行调试。

通过 CloudWatch 日志验证生命周期配置流程

生命周期配置仅记录 STDOUTSTDERR

STDOUT 是 bash 脚本的默认输出。您可以通过在 bash 命令的末尾追加 >&2 来写入 STDERR。例如,echo 'hello'>&2

您的生命周期配置日志将 AWS 账户 使用 Amazon 发布给您 CloudWatch。这些日志可以在 CloudWatch 控制台的/aws/sagemaker/studio日志流中找到。

  1. 打开 CloudWatch 控制台,网址为 https://console.aws.amazon.com/cloudwatch/

  2. 从左侧导航窗格中选择 “日志”。从下拉菜单中,选择日志组

  3. 日志组页面上,搜索 aws/sagemaker/studio

  4. 选择日志组。

  5. 日志组详细信息页面上,选择日志流选项卡。

  6. 要查找特定应用程序的日志,请使用以下格式搜索日志流:

    domain-id/user-profile-name/app-type/app-name

    以下搜索字符串可查找域d-m85lcu8vbqmz、用户配置文件i-sonic-js、应用程序类型JupyterLab和应用程序名称的生命周期配置日志test-lcc-echo

    d-m85lcu8vbqmz/i-sonic-js/JupyterLab/test-lcc-echo
  7. 要查看脚本执行日志,请选择附加的LifecycleConfigOnStart日志流。

生命周期配置超时

生命周期配置超时限制为 5 分钟。如果生命周期配置脚本的运行时间超过 5 分钟,则会出现错误。

要解决此错误,请确保您的生命周期配置脚本在 5 分钟内完成。

要帮助缩短脚本的运行时间,请尝试以下方法:

  • 减少不必要的步骤。例如,限制在哪些 conda 环境中安装大型软件包。

  • 在并行进程中运行任务。

  • 在脚本中使用 nohup 命令确保忽略挂断信号,这样脚本就可以不停地运行。