本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
对集群进行故障排查的第一步是收集有关出现问题的信息以及集群的当前状态和配置。此信息将在以下步骤中用于确认或排查问题的可能原因。
定义问题
首先要对这个问题作出明确的定义。问自己一些问题:
-
我预计发生什么? 实际发生了什么?
-
首次出现此问题是什么时候? 自那以后有多久发生一次?
-
配置或运行集群的方式是否有任何变化?
集群详细信息
以下集群详细信息有助于追踪问题。有关如何收集此信息的更多信息,请参阅查看 Amazon EMR 集群状态和详细信息。
-
集群的标识符。(也称为工作流标识符。)
-
AWS 区域 以及集群启动时进入的可用区。
-
集群的状态,包括上次状态更改的详细信息。
-
为主节点、核心节点和任务节点指定的 EC2 实例类型和数量。