网络问题排查 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

网络问题排查

本节为您提供遇到网络问题时的故障排除技巧,特别是在处理单个公有子网中的集群问题时。

集群位于单个公有子网的问题

从其中一个计算节点中检查 cloud-init-output.log。如果你发现类似以下内容的内容表明节点被卡住了 Slurm 初始化,很可能是由于缺少 DynamoDB 终端节点VPC。添加 DynamoDB 端点。有关更多信息,请参阅AWS ParallelCluster 在无法访问互联网的单个子网中

ruby_block[retrieve compute node info] action run[2022-03-11T17:47:11+00:00] INFO: Processing ruby_block[retrieve compute node info] action run (aws-parallelcluster-slurm::init line 31)