本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS ParallelCluster 故障排除
以下各节针对使用 AWS ParallelCluster 时可能出现的问题提供问题排查提示。AWS ParallelCluster 社区维护着一个 Wiki 页面,在 AWS ParallelCluster GitHub Wiki
主题
- 尝试创建集群
- 尝试运行作业
- 尝试更新集群
- 尝试访问存储
- 尝试删除集群
- 尝试升级 AWS ParallelCluster API 堆栈
- 在计算节点初始化过程中看到错误
- 集群运行状况指标故障排除
- 排查集群部署问题
- 排查使用 Terraform 部署集群的问题
- 排查扩展问题
- 置放群组和实例启动问题
- 替换目录
- 排查 Amazon DCV 中的问题
- 在采用 AWS Batch 集成的集群中排查问题
- 排查与 Active Directory 的多用户集成问题
- 排查自定义 AMI 问题
- 排查 cfn-hup 未运行时的集群更新超时问题
- 网络问题排查
- 执行 onNodeUpdated 自定义操作时集群更新失败
- 看到自定义 Slurm 配置错误
- 集群警报