本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在计算节点初始化过程中看到错误
以下各节提供了计算节点初始化过程中出现错误时的问题排查提示。这包括引导错误、在日志中看到错误,以及如果这些场景都不适用于您的具体情况,该如何处理。
主题
- 在 clustermgtd.log 中看到“Node bootstrap error”
- 我配置了按需容量预留 (ODCR) 或区域预留实例
- 运行作业失败时在 slurm_resume.log 中看到“An error occurred (VcpuLimitExceeded)”,或创建集群失败时在 clustermgtd.log 中看到该错误
- 运行作业失败时在 slurm_resume.log 中看到“An error occurred (InsufficientInstanceCapacity)”,或创建集群失败时在 clustermgtd.log 中看到该错误
- 看到节点处于 DOWN 状态并显示Reason (Code:InsufficientInstanceCapacity)...
- 在 slurm_resume.log 中看到“cannot change locale (en_US.utf-8) because it has an invalid name”
- 以上情形都不适用于我的情况