本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 叢集管理
下列主題討論記錄和管理 SageMaker HyperPod 叢集。
記錄 SageMaker HyperPod 事件
所有事件和日誌 SageMaker HyperPod 都以日誌組名稱保存到 Amazon CloudWatch /aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
。每次呼叫 CreateCluster
API 都會建立新的記錄群組。下列清單包含每個記錄群組中收集的所有可用記錄資料流。
記錄群組名稱 | 記錄資料流名稱 |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
執行個體 SageMaker HyperPod 層級的記錄
您可以 CloudWatch 在叢集執行個體配置期間存取發佈至的 LifecycleScript 記錄。建立的叢集中的每個執行個體都會產生個別的記錄資料流,可透過格式區分。LifecycleConfig/[instance-group-name]/[instance-id]
所有寫入的記錄都/var/log/provision/provisioning.log
會上傳至前一個 CloudWatch 資料流。樣品 LifecycleScripts 在1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
stdout
和stderr
這個位置。如果您正在使用自訂指令碼,請將記錄檔寫入可在其中使用的/var/log/provision/provisioning.log
位置 CloudWatch。
標記資源
AWS 標籤系統有助於管理,識別,組織,搜索和過濾資源。 SageMaker HyperPod 支持標記,因此您可以將叢集作為 AWS 資源進行管理。在叢集建立或編輯現有叢集期間,您可以新增或編輯叢集的標籤。若要進一步了解標記的一般資訊,請參閱標記資 AWS 源。
使用主 SageMaker HyperPod 控台 UI
建立新叢集並編輯叢集時,可以新增、移除或編輯標籤。
使用 SageMaker HyperPod API
當您以 JSON 格式撰寫CreateCluster或 UpdateClusterAPI 要求檔案時,請編輯Tags
區段。
使用 AWS CLI 標籤指令 SageMaker
標記叢集
使用方式aws sagemaker add-tags
如下。
aws sagemaker add-tags --resource-arn
cluster_ARN
--tags Key=string
,Value=string
若要取消標記叢集
使用方式aws sagemaker delete-tags
如下。
aws sagemaker delete-tags --resource-arn
cluster_ARN
--tag-keys"tag_key"
若要列出資源的標籤
使用方式aws sagemaker list-tags
如下。
aws sagemaker list-tags --resource-arn
cluster_ARN