SageMaker HyperPod 集群管理 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 集群管理

以下主题讨论了日志记录和管理 SageMaker HyperPod 集群。

记录 SageMaker HyperPod 事件

来自的所有事件和日志 SageMaker HyperPod 都以日志组名称保存到 Amazon CloudWatch /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。每次调用 CreateCluster API 都会创建一个新的日志组。以下列表包含每个日志组收集的所有可用日志流。

日志组名称 日志流名称
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

SageMaker HyperPod 在实例级别进行日志记录

您可以访问在集群实例配置 CloudWatch 期间发布到的 LifecycleScript 日志。创建的集群中的每个实例都会生成单独的日志流,以 LifecycleConfig/[instance-group-name]/[instance-id] 格式区分。

写入的所有日志都将/var/log/provision/provisioning.log上传到前面的 CloudWatch 流中。 LifecycleScripts 在1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config将他们stdout和重定向stderr到此位置时示例。如果您使用的是自定义脚本,请将日志写入可用的/var/log/provision/provisioning.log位置 CloudWatch。

为资源添加标签

AWS 标签系统可帮助管理、识别、组织、搜索和筛选资源。 SageMaker HyperPod 支持标记,因此您可以将群集作为 AWS 资源进行管理。在创建集群或编辑现有集群期间,您可以为集群添加或编辑标签。要了解有关标记的更多一般信息,请参阅标记 AWS 资源

使用 SageMaker HyperPod 控制台 UI

创建新集群编辑集群时,您可以添加、删除或编辑标签。

使用 SageMaker HyperPod APIs

当您以 JSON 格式编写CreateClusterUpdateClusterAPI 请求文件时,请编辑该Tags部分。

使用适用于 AI 的 AWS CLI SageMaker 标记命令

要标记一个集群

按如下方式使用 aws sagemaker add-tags

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

要取消标记一个集群

按如下方式使用 aws sagemaker delete-tags

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

列出资源的标签

按如下方式使用 aws sagemaker list-tags

aws sagemaker list-tags --resource-arn cluster_ARN