SageMaker HyperPod 叢集管理 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集管理

下列主題討論記錄和管理 SageMaker HyperPod 叢集。

記錄 SageMaker HyperPod 事件

所有事件和日誌 SageMaker HyperPod 都以日誌組名稱保存到 Amazon CloudWatch /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。每次呼叫 CreateCluster API 都會建立新的記錄群組。下列清單包含每個記錄群組中收集的所有可用記錄資料流。

記錄群組名稱 記錄資料流名稱
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

執行個體 SageMaker HyperPod 層級的記錄

您可以 CloudWatch 在叢集執行個體配置期間存取發佈至的 LifecycleScript 記錄。建立的叢集中的每個執行個體都會產生個別的記錄資料流,可透過格式區分。LifecycleConfig/[instance-group-name]/[instance-id]

所有寫入的記錄都/var/log/provision/provisioning.log會上傳至前一個 CloudWatch 資料流。樣品 LifecycleScripts 在1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config重定向他們stdoutstderr這個位置。如果您正在使用自訂指令碼,請將記錄檔寫入可在其中使用的/var/log/provision/provisioning.log位置 CloudWatch。

標記資源

AWS 標籤系統有助於管理,識別,組織,搜索和過濾資源。 SageMaker HyperPod 支持標記,因此您可以將叢集作為 AWS 資源進行管理。在叢集建立或編輯現有叢集期間,您可以新增或編輯叢集的標籤。若要進一步了解標記的一般資訊,請參閱標記資 AWS 源

使用主 SageMaker HyperPod 控台 UI

建立新叢集並編輯叢集時,可以新增、移除或編輯標籤。

使用 SageMaker HyperPod API

當您以 JSON 格式撰寫CreateClusterUpdateClusterAPI 要求檔案時,請編輯Tags區段。

使用 AWS CLI 標籤指令 SageMaker

標記叢集

使用方式aws sagemaker add-tags如下。

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

若要取消標記叢集

使用方式aws sagemaker delete-tags如下。

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

若要列出資源的標籤

使用方式aws sagemaker list-tags如下。

aws sagemaker list-tags --resource-arn cluster_ARN