SageMaker HyperPod 集群资源监控 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 集群资源监控

要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性,请将集群与适用于 Prometheus 的亚马逊托管服务和 Amazon M anaged Grafana 集成。通过与 Amazon Prometheus 托管服务的集成,可以导出与 HyperPod 您的集群资源相关的指标,从而深入了解其性能、利用率和运行状况。通过与 Amazon Managed Grafana 的集成,可以通过各种 Grafana 仪表板对这些指标进行可视化,这些仪表板为监控和分析集群的行为提供了直观的界面。通过利用这些服务,您可以获得 HyperPod 集群的集中统一视图,从而便于对分布式训练工作负载进行主动监控、故障排除和优化。

提示

要查找实际示例和解决方案,另请参阅SageMaker HyperPod研讨会

使用适用于 Prometheus SageMaker HyperPod 的亚马逊托管服务和亚马逊托管 Grafana 进行配置的概述。

图:此架构图显示了使用适用于 Prometheus SageMaker HyperPod 的亚马逊托管服务和亚马逊托管 Grafana 进行配置的概述。

继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。