與 Amazon CloudWatch Logs 的整合 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

與 Amazon CloudWatch Logs 的整合

如需 CloudWatch Logs 的詳細資訊,請參閱 Amazon CloudWatch Logs 使用者指南。若要設定 CloudWatch Logs 整合,請參閱Monitoring一節。若要了解如何使用 將自訂日誌附加至 CloudWatch 組態append-config,請參閱《Amazon CloudWatch 使用者指南》中的多個 CloudWatch 代理程式組態檔案Amazon CloudWatch

Amazon CloudWatch Logs 叢集日誌

系統會為每個叢集建立具有名稱的日誌群組 /aws/parallelcluster/cluster-name-<timestamp>(例如 /aws/parallelcluster/testCluster-202202050215)。每個節點上的每個日誌 (如果路徑包含 ,則為一組日誌*) 都有名為 的日誌串流{hostname}.{instance_id}.{logIdentifier}。(例如 ip-172-31-10-46.i-02587cf29cc3048f3.nodewatcher。) CloudWatch 代理程式會將日誌資料傳送至 CloudWatch,該代理程式會在所有叢集執行個體root上執行 。

建立叢集時,會建立 Amazon CloudWatch 儀表板。此儀表板可讓您檢閱儲存在 CloudWatch Logs 中的日誌。如需詳細資訊,請參閱Amazon CloudWatch 儀表板

此清單包含可用於平台、排程器和節點之日誌串流的 logIdentifier 和路徑。

可用於平台、排程器和節點的日誌串流
平台 排程器 節點 日誌串流

amazon

redhat

ubuntu

awsbatch

slurm

HeadNode

dcv-authenticator: /var/log/parallelcluster/pcluster_dcv_authenticator.log

dcv-ext-authenticator: /var/log/parallelcluster/pcluster_dcv_connect.log

dcv-agent: /var/log/dcv/agent.*.log

dcv-xsession: /var/log/dcv/dcv-xsession.*.log

dcv-server: /var/log/dcv/server.log

dcv-session-launcher: /var/log/dcv/sessionlauncher.log

Xdcv: /var/log/dcv/Xdcv.*.log

cfn-init: /var/log/cfn-init.log

Chef-client: /var/log/chef-client.log

amazon

redhat

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

cloud-init: /var/log/cloud-init.log

受監控: /var/log/supervisord.log

amazon

redhat

ubuntu

slurm

ComputeFleet

cloud-init-output: /var/log/cloud-init-output.log

computingmgtd: /var/log/parallelcluster/computemgtd

slurmd: /var/log/slurmd.log

slurm_prolog_epilog: /var/log/parallelcluster/slurm_prolog_epilog.log

amazon

redhat

ubuntu

slurm

HeadNode

sssd: /var/log/sssd/sssd.log

sssd_domain_default: /var/log/sssd/sssd_default.log

pam_ssh_key_generator: /var/log/parallelcluster/pam_ssh_key_generator.log

clusterstatusmgtd: /var/log/parallelcluster/clusterstatusmgtd

clustermgtd: /var/log/parallelcluster/clustermgtd

computing_console_output: /var/log/parallelcluster/compute_console_output

slurm_resume: /var/log/parallelcluster/slurm_resume.log

slurm_suspend: /var/log/parallelcluster/slurm_suspend.log

slurmctld: /var/log/slurmctld.log

slurm_fleet_status_manager: /var/log/parallelcluster/slurm_fleet_status_manager.log

amazon

redhat

awsbatch

slurm

ComputeFleet

HeadNode

system-messages: /var/log/messages

ubuntu

awsbatch

slurm

ComputeFleet

HeadNode

syslog: /var/log/syslog

叢集中的任務,其使用 來 AWS Batch 存放 CloudWatch Logs FAILED中狀態為 RUNNINGSUCCEEDED或 的任務輸出。日誌群組為 /aws/batch/job,日誌串流名稱格式為 jobDefinitionName/default/ecs_task_id。根據預設,這些日誌設定為不會過期,但您可以修改保留期。如需詳細資訊,請參閱《Amazon CloudWatch Logs 使用者指南》中的變更 CloudWatch 日誌中的日誌資料保留期間

Amazon CloudWatch Logs 建置映像日誌

系統會為每個具有名稱 的自訂建置映像建立日誌群組/aws/imagebuilder/ParallelClusterImage-<image-id>。名稱為 {pcluster-version}/1 的唯一日誌串流包含建置映像程序的輸出。

您可以使用pcluster映像命令來存取日誌。如需詳細資訊,請參閱AWS ParallelCluster AMI 自訂