本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
由 Amazon 编排的 SageMaker HyperPod 集群的可观察性 EKS
要实现 SageMaker HyperPod 集群资源和软件组件的全面可观察性,请将集群与 A CloudWatch mazon Container Insights、适用于 Prometheus 的亚马逊托管服务和亚马逊托管 Grafana 集成。
通过与 Amazon Prometheus 托管服务的集成,可以导出与 HyperPod您的集群资源相关的指标,从而深入了解其性能、利用率和运行状况。通过与 Amazon Managed Grafana 的集成,可以通过各种 Grafana 仪表板对这些指标进行可视化,这些仪表板为监控和分析集群的行为提供了直观的界面。通过利用这些服务,您可以获得 HyperPod 集群的集中统一视图,从而便于对分布式训练工作负载进行主动监控、故障排除和优化。
提示
要查找实际示例和解决方案,另请参阅 Amazon Su EKS pport in SageMaker HyperPod 研讨会中的
继续阅读以下主题以设置 SageMaker HyperPod 集群可观测性。