亚马逊 CloudWatch 控制面板 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 CloudWatch 控制面板

Amazon CloudWatch 控制面板是在创建集群时创建的。这样可以更轻松地监控集群中的节点和查看 Amazon Logs 中存储的 CloudWatch 日志。控制面板的名称为 ClusterName-RegionClusterName 是你的集群的名字而且 Region 是集群所在 AWS 区域 的集群。您可以在控制台中访问控制面板,也可以通过打开 https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region 来访问控制面板。

下图显示了集群的示例 CloudWatch 仪表板。

Dashboard graphs of the status of cluster resources.

头节点实例指标

控制面板的第一部分显示了头节点 Amazon EC2 指标的图表。

如果您的集群具有共享存储,则下一部分将显示共享存储指标。

集群运行状况指标

如果您的集群使用 Slurm 在调度方面,集群运行状况指标图表显示集群计算节点的实时错误。有关更多信息,请参阅 集群运行状况指标故障排除。从 3.6.0 AWS ParallelCluster 版开始,集群运行状况指标已添加到控制面板中。

头节点日志

最后一部分列出了按 AWS ParallelCluster日志、调度程序日志、Amazon DCV 集成日志和系统日志分组的主节点日志。

有关亚马逊 CloudWatch 控制面板的更多信息,请参阅亚马逊 CloudWatch 用户指南中的使用亚马逊 CloudWatch 控制面板

如果您不想创建 Amazon CloudWatch 控制面板,可以通过将 Monitoring//DashboardsCloudWatch/设置Enabled为将其关闭false

注意

如果您禁用创建亚马逊 CloudWatch 控制面板,则还会禁用集群的亚马逊 CloudWatch disk_used_percentmemory_used_percent警报。有关更多信息,请参阅 集群指标的 Amazon CloudWatch 警报

从 3.6 AWS ParallelCluster 版开始添加disk_used_percentmemory_used_percent警报。