翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
クラスターヘルスメトリクスのトラブルシューティング
クラスターヘルスメトリクスは、 AWS ParallelCluster バージョン 3.6.0 以降、 AWS ParallelCluster Amazon CloudWatch ダッシュボードに追加されます。以降のセクションで、ダッシュボードヘルスメトリクスと、問題のトラブルシューティングと解決のために実行できるアクションについて説明します。
インスタンスプロビジョニングエラーグラフが表示されている
Instance Provisioning Errors
グラフに 0 以外の値が表示される場合は、slurm ノードをバックアップするための Amazon EC2 インスタンスが CreateFleet
または RunInstance
API で起動できなかったことを意味します。
IAMPolicyErrors
が表示されている
-
何が起きたのか。
多数のインスタンスが起動できませんでした。これは、権限が不十分であることが原因であり、エラーコード
UnauthorizedOperation
が出ています。 -
解決方法
カスタム InstanceRole または InstanceProfile を設定している場合は、IAM ポリシーを調べて、正しい認証情報を使用していることを確認してください。
clustermgtd
ファイルにスタティックノードのエラーの詳細がないか確認してください。動的ノードエラーの詳細についてはslurm_resume.log
ファイルを確認してください。詳細を参照して、追加する必要のある不足している権限について詳しく調べてください。
VcpuLimitErrors
が表示されている
-
何が起きたのか。
AWS ParallelCluster は、クラスターコンピューティングノード用に設定した AWS アカウント 特定の Amazon EC2 インスタンスタイプの の vCPU 制限に達したため、インスタンスを起動できませんでした。
-
解決方法
静的ノードの場合は
clustermgtd
ファイルにVcpuLimitExceeded
エラーがないか確認し、動的ノードの場合はslurm_resume.log
ファイルで詳細を確認してください。この問題を解決するため、vCPU 制限の引き上げをリクエストできます。現在の制限を表示し、新しい制限をリクエストする方法の詳細については、「Linux インスタンス用 Amazon Elastic Compute Cloud ユーザーガイド」の「Amazon Elastic Compute Cloud サービスクォータ」を参照してください。
VolumeLimitErrors
が表示されている
-
何が起きたのか。
で Amazon EBS ボリュームの制限に達し AWS アカウント、エラーコード AWS ParallelCluster
InsufficientVolumeCapacity
または でインスタンスを起動できませんVolumeLimitExceeded
。 -
解決方法
静的ノードの場合は
clustermgtd
ファイルを確認し、動的ノードの場合はslurm_resume.log
ファイルでボリューム制限の詳細を確認してください。この問題を解決するには、別の を使用するか AWS リージョン、既存のボリュームを AWS クリーンアップするか、サポートセンターに連絡して Amazon EBS ボリューム制限の引き上げをリクエストしてください。
InsufficientCapacityErrors
が表示されている
-
何が起きたのか。
AWS ParallelCluster には、Amazon EC2 インスタンスを起動してノードをバックアップするのに十分な容量がありません。
-
解決方法
静的ノードについては
clustermgtd
ファイルを確認し、動的ノードについてはslurm_resume.log
ファイルで容量不足エラーの詳細を確認してください。問題のトラブルシューティングを行うには、https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/のガイダンスに従ってください。
OtherInstanceLaunchFailures
-
何が起きたのか。
コンピューティングノードをバッキングするための Amazon EC2 インスタンスは、
CreateFleet
またはRunInstance
API で起動できませんでした。 -
解決方法
静的ノードについては
clustermgtd
ファイルを確認し、動的ノードについてはslurm_resume.log
ファイルでエラーの詳細を確認してください。
「異常なインスタンスエラー」グラフが表示されている
-
何が起きたのか。
多数のコンピューティングインスタンスが起動されたものの、後に異常として終了しました。
-
解決方法
異常なノードのトラブルシューティングの詳細については、「予期しないノードの置換や終了のトラブルシューティング」を参照してください。
InstanceBootstrapTimeoutError
が表示されている
-
何が起きたのか。
インスタンスは
resume_timeout
(動的ノードの場合) またはnode_replacement_timeout
(静的ノードの場合) 内のクラスターに参加できません。これは、コンピューティングノード用にネットワークが正しく設定されていない場合や、コンピューティングノードで実行されているカスタムスクリプトが終了するまでに時間がかかりすぎる場合に発生する可能性があります。 -
解決方法
動的ノードの場合は、
clustermgtd
ログ (/var/log/parallelcluster/clustermgtd
) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。Node bootstrap error: Resume timeout expires for node
静的ノードの場合は、
clustermgtd
ログ (/var/log/parallelcluster/clustermgtd
) でコンピューティングノードの IP アドレスと次のようなエラーを確認してください。Node bootstrap error: Replacement timeout expires for node ... in replacement.
詳細については、
/var/log/cloud-init-output.log
ファイルでエラーを確認してください。問題のあるコンピューティングノードの IP アドレスは、clustermgtd
およびslurm_resume
ログファイルから取得できます。
EC2HealthCheckErrors
が表示されている
-
何が起きたのか。
インスタンスが Amazon EC2 ヘルスチェックに失敗しました。
-
解決方法
この問題のトラブルシューティングについては、「ステータスチェックに失敗したインスタンスのトラブルシューティング」を参照してください。
ScheduledEventHealthCheckErrors
が表示されている
-
何が起きたのか。
インスタンスが Amazon EC2 のスケジュールされたイベントヘルスチェックに失敗し、異常です。
-
解決方法
この問題のトラブルシューティングについては、「インスタンスの予定されたイベント」を参照してください。
NoCorrespondingInstanceErrors
が表示されている
-
何が起きたのか。
AWS ParallelCluster は、インスタンスバッキングノードを見つけることができません。ブートストラップ操作中にノードが自動的に終了した可能性があります。SlurmQueues/CustomActions/OnNodeStart | OnNodeConfigured スクリプト、またはネットワークエラーが、
NoCorrespondingInstanceErrors
を発生させている可能性があります。 -
解決方法
詳細については、コンピューティングノードの
/var/log/cloud-init-output.log
を確認してください。
コンピューティングフリートのアイドル時間グラフが表示されている
アイドル時間のスケールダウンのしきい値よりも大幅に長い MaxDynamicNodeIdleTime
が表示されている
-
何が起きたのか。
インスタンスが正しく終了していません。 は、Amazon EC2 インスタンスにバックアップされた動的ノードがアイドル状態である最大時間を秒単位で
MaxDynamicNodeIdleTime
示します。アイドル時間スケールダウンのしきい値は、クラスター設定の ScaledownIdletime パラメータから算出されます。コンピューティングノードがアイドル時間スケールダウン秒以上アイドル状態になると、 はノードSlurmの電源を切ってバッキングインスタンスを AWS ParallelCluster 終了します。この場合、何かがインスタンスの終了を妨げています。 -
解決方法
この問題の詳細については、「スケーリング問題のトラブルシューティング」の「問題のあるインスタンスやノードの置換、終了、電源オフ」を参照してください。