与 Amazon CloudWatch 日志集成 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

与 Amazon CloudWatch 日志集成

有关 CloudWatch 日志的更多信息,请参阅 Amazon CloudWatch 日志用户指南。要配置 CloudWatch 日志集成,请参阅一Monitoring节。要了解如何使用将自定义日志附加到 CloudWatch 配置中append-config,请参阅 Amazon CloudWatch 用户指南中的多个 CloudWatch 代理配置文件

Amazon CloudWatch 日志集群日志

将为每个集群创建一个名为 /aws/parallelcluster/cluster-name-<timestamp> 的日志组(例如 /aws/parallelcluster/testCluster-202202050215)。每个节点上的每个日志(如果路径包含 *,则为一组日志)都有一个名为 {hostname}.{instance_id}.{logIdentifier} 的日志流。(例如 ip-172-31-10-46.i-02587cf29cc3048f3.nodewatcher。) 日志数据 CloudWatch 由代理发送到,该CloudWatch 代理root在所有集群实例上一样运行。

Amazon CloudWatch 控制面板是在创建集群时创建的。此仪表板使您能够查看存储在日志中的 CloudWatch 日志。有关更多信息,请参阅 亚马逊 CloudWatch 控制面板

此列表包含平台logIdentifier、调度器和节点可用的日志流的和路径。

适用于平台、调度器和节点的日志流
平台 调度器 Nodes 日志流

amazon

redhat

ubuntu

awsbatch

slurm

HeadNode

dcv-authenticator:/var/log/parallelcluster/pcluster_dcv_authenticator.log

dcv-ext-authenticator: /var/log/parallelcluster/pcluster_dcv_connect.log

dcv-agent:/var/log/dcv/agent.*.log

dcv-xsession:/var/log/dcv/dcv-xsession.*.log

dcv-server:/var/log/dcv/server.log

dcv-session-launcher: /var/log/dcv/sessionlauncher.log

Xdcv:/var/log/dcv/Xdcv.*.log

cfn-init:/var/log/cfn-init.log

chef-client:/var/log/chef-client.log

amazon

redhat

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

cloud-init:/var/log/cloud-init.log

supervisord:/var/log/supervisord.log

amazon

redhat

ubuntu

slurm

ComputeFleet

cloud-init-output: /var/log/cloud-init-output.log

computemgtd:/var/log/parallelcluster/computemgtd

slurmd:/var/log/slurmd.log

slurm_prolog_epilog:/var/log/parallelcluster/slurm_prolog_epilog.log

amazon

redhat

ubuntu

slurm

HeadNode

sssd:/var/log/sssd/sssd.log

sssd_domain_default:/var/log/sssd/sssd_default.log

pam_ssh_key_generator:/var/log/parallelcluster/pam_ssh_key_generator.log

clusterstatusmgtd:/var/log/parallelcluster/clusterstatusmgtd

clustermgtd:/var/log/parallelcluster/clustermgtd

compute_console_output:/var/log/parallelcluster/compute_console_output

slurm_resume:/var/log/parallelcluster/slurm_resume.log

slurm_suspend:/var/log/parallelcluster/slurm_suspend.log

slurmctld:/var/log/slurmctld.log

slurm_fleet_status_manager:/var/log/parallelcluster/slurm_fleet_status_manager.log

amazon

redhat

awsbatch

slurm

ComputeFleet

HeadNode

system-messages:/var/log/messages

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

syslog:/var/log/syslog

使用集群中的作业将达到RUNNINGSUCCEEDED、或状态的作业的输出 AWS Batch 存储FAILED在 CloudWatch 日志中。日志组为 /aws/batch/job,日志流名称格式为 jobDefinitionName/default/ecs_task_id。默认情况下,这些日志设置为不过期,但您可以修改保留期。有关更多信息,请参阅《Amazon 日志用户指南》中的 “ CloudWatch 日志” 中的更改 CloudWatch 日志数据保留期

Amazon CloudWatch Logs 生成镜像日志

将为每个自定义构建映像创建名为 /aws/imagebuilder/ParallelClusterImage-<image-id> 的日志组。名为 {pcluster-version} /1 的唯一日志流包含构建映像过程的输出。

您可以使用 pcluster 映像命令访问这些日志。有关更多信息,请参阅 AWS ParallelCluster AMI 自定义