クラスターヘルスメトリクスのトラブルシューティング - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クラスターヘルスメトリクスのトラブルシューティング

クラスターヘルスメトリクスは、 AWS ParallelCluster バージョン 3.6.0 以降、 AWS ParallelCluster Amazon CloudWatch ダッシュボードに追加されます。以降のセクションで、ダッシュボードヘルスメトリクスと、問題のトラブルシューティングと解決のために実行できるアクションについて説明します。

インスタンスプロビジョニングエラーグラフが表示されている

Instance Provisioning Errors グラフに 0 以外の値が表示される場合は、slurm ノードをバックアップするための Amazon EC2 インスタンスが CreateFleetまたは RunInstance API で起動できなかったことを意味します。

IAMPolicyErrors が表示されている

  • 何が起きたのか。

    多数のインスタンスが起動できませんでした。これは、権限が不十分であることが原因であり、エラーコード UnauthorizedOperation が出ています。

  • 解決方法

    カスタム InstanceRole または InstanceProfile を設定している場合は、IAM ポリシーを調べて、正しい認証情報を使用していることを確認してください。

    clustermgtd ファイルにスタティックノードのエラーの詳細がないか確認してください。動的ノードエラーの詳細については slurm_resume.log ファイルを確認してください。詳細を参照して、追加する必要のある不足している権限について詳しく調べてください。

VcpuLimitErrors が表示されている

  • 何が起きたのか。

    AWS ParallelCluster は、クラスターコンピューティングノード用に設定した AWS アカウント 特定の Amazon EC2 インスタンスタイプの の vCPU 制限に達したため、インスタンスを起動できませんでした。

  • 解決方法

    静的ノードの場合は clustermgtd ファイルに VcpuLimitExceeded エラーがないか確認し、動的ノードの場合は slurm_resume.log ファイルで詳細を確認してください。この問題を解決するため、vCPU 制限の引き上げをリクエストできます。現在の制限を表示し、新しい制限をリクエストする方法の詳細については、「Linux インスタンス用 Amazon Elastic Compute Cloud ユーザーガイド」の「Amazon Elastic Compute Cloud サービスクォータ」を参照してください。

VolumeLimitErrors が表示されている

  • 何が起きたのか。

    で Amazon EBS ボリュームの制限に達し AWS アカウント、エラーコード AWS ParallelCluster InsufficientVolumeCapacityまたは でインスタンスを起動できませんVolumeLimitExceeded

  • 解決方法

    静的ノードの場合は clustermgtd ファイルを確認し、動的ノードの場合は slurm_resume.log ファイルでボリューム制限の詳細を確認してください。この問題を解決するには、別の を使用するか AWS リージョン、既存のボリュームを AWS クリーンアップするか、サポートセンターに連絡して Amazon EBS ボリューム制限の引き上げをリクエストしてください。

InsufficientCapacityErrors が表示されている

  • 何が起きたのか。

    AWS ParallelCluster には、Amazon EC2 インスタンスを起動してノードをバックアップするのに十分な容量がありません。

  • 解決方法

    静的ノードについては clustermgtd ファイルを確認し、動的ノードについては slurm_resume.log ファイルで容量不足エラーの詳細を確認してください。問題のトラブルシューティングを行うには、https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ のガイダンスに従ってください。

OtherInstanceLaunchFailures

  • 何が起きたのか。

    コンピューティングノードをバッキングするための Amazon EC2 インスタンスは、 CreateFleetまたは RunInstance API で起動できませんでした。

  • 解決方法

    静的ノードについては clustermgtd ファイルを確認し、動的ノードについては slurm_resume.log ファイルでエラーの詳細を確認してください。

異常なインスタンスエラー」グラフが表示されている

InstanceBootstrapTimeoutError が表示されている

  • 何が起きたのか。

    インスタンスは resume_timeout (動的ノードの場合) または node_replacement_timeout (静的ノードの場合) 内のクラスターに参加できません。これは、コンピューティングノード用にネットワークが正しく設定されていない場合や、コンピューティングノードで実行されているカスタムスクリプトが終了するまでに時間がかかりすぎる場合に発生する可能性があります。

  • 解決方法

    動的ノードの場合は、clustermgtd ログ (/var/log/parallelcluster/clustermgtd) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。

    Node bootstrap error: Resume timeout expires for node

    静的ノードの場合は、clustermgtd ログ (/var/log/parallelcluster/clustermgtd) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    詳細については、/var/log/cloud-init-output.log ファイルでエラーを確認してください。問題のあるコンピューティングノードの IP アドレスは、clustermgtd および slurm_resume ログファイルから取得できます。

EC2HealthCheckErrors が表示されている

ScheduledEventHealthCheckErrors が表示されている

  • 何が起きたのか。

    インスタンスが Amazon EC2 のスケジュールされたイベントヘルスチェックに失敗し、異常です。

  • 解決方法

    この問題のトラブルシューティングについては、「インスタンスの予定されたイベント」を参照してください。

NoCorrespondingInstanceErrors が表示されている

  • 何が起きたのか。

    AWS ParallelCluster は、インスタンスバッキングノードを見つけることができません。ブートストラップ操作中にノードが自動的に終了した可能性があります。SlurmQueues/CustomActions/OnNodeStart | OnNodeConfigured スクリプト、またはネットワークエラーが、NoCorrespondingInstanceErrors を発生させている可能性があります。

  • 解決方法

    詳細については、コンピューティングノードの /var/log/cloud-init-output.log を確認してください。

コンピューティングフリートのアイドル時間グラフが表示されている

アイドル時間のスケールダウンのしきい値よりも大幅に長い MaxDynamicNodeIdleTime が表示されている

  • 何が起きたのか。

    インスタンスが正しく終了していません。 は、Amazon EC2 インスタンスにバックアップされた動的ノードがアイドル状態である最大時間を秒単位でMaxDynamicNodeIdleTime示します。アイドル時間スケールダウンのしきい値は、クラスター設定の ScaledownIdletime パラメータから算出されます。コンピューティングノードがアイドル時間スケールダウン秒以上アイドル状態になると、 はノードSlurmの電源を切ってバッキングインスタンスを AWS ParallelCluster 終了します。この場合、何かがインスタンスの終了を妨げています。

  • 解決方法

    この問題の詳細については、「スケーリング問題のトラブルシューティング」の「問題のあるインスタンスやノードの置換、終了、電源オフ」を参照してください。