翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS ParallelCluster のトラブルシューティング
AWS ParallelCluster コミュニティは、AWS ParallelCluster GitHub Wiki
トピック
ログの取得と保存
ログは問題を解決するための有用なリソースです。ログを使用して AWS ParallelCluster リソースの問題をトラブルシューティングする前に、まずクラスターログのアーカイブを作成する必要があります。AWS ParallelCluster GitHub Wiki
稼働中のクラスターの 1 つに問題が発生した場合、トラブルシューティングを開始する前に pcluster stop
<
コマンドを実行してクラスターを cluster_name
>STOPPED
状態にしてください。これにより、予想外のコストが発生することを防ぐことができます。
pcluster
が機能しなくなったクラスターを削除したい場合は、pcluster delete —keep-logs
<
コマンドを実行します。このコマンドを実行すると、クラスターは削除されますが、Amazon CloudWatch に保存されているロググループは保持されます。このコマンドの詳細については、「pcluster delete」を参照してください。cluster_name
>
スタックデプロイ時のトラブルシューティング
クラスターの作成に失敗し、スタックの作成がロールバックされる場合は、以下のログファイルを参照して問題を診断します。これらのログの中から ROLLBACK_IN_PROGRESS
の出力を探します。失敗した場合のは次のように表示されます。
$
pcluster create mycluster
Creating stack named: parallelcluster-mycluster Status: parallelcluster-mycluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::EC2::Instance MasterServer Received FAILURE signal with UniqueId i-07af1cb218dd6a081
この問題を診断するには、--norollback
フラグを含む pcluster create を使用してクラスターを再度作成します。次に、クラスターに SSH 接続します。
$
pcluster create mycluster --norollback
...$
pcluster ssh mycluster
ヘッドノードにログインすると、エラーの原因を突き止めるための 3 つの主要なログファイルが見つかります。
-
/var/log/cfn-init.log
はcfn-init
のスクリプトのログです。最初に、このログを確認してください。このログにはCommand chef failed
のようなエラーが表示される可能性があります。エラーメッセージの詳細については、この行の直前の行を参照してください。詳細については、「cfn-init」を参照してください。 -
/var/log/cloud-init.log
は cloud-initのログです。 cfn-init.log
に何も表示されない場合は、次にこのログを確認してください。 -
/var/log/cloud-init-output.log
は cloud-initで実行されたコマンドの出力です。これには cfn-init
からの出力も含まれます。通常、この種の問題のトラブルシューティングには、このログを見る必要はありません。
マルチキューモードクラスターでの問題のトラブルシューティング
このセクションは、Slurm ジョブスケジューラで AWS ParallelCluster バージョン 2.9.0 以降を使用してインストールしたクラスターに関連しています。マルチキューモードの詳細については、「マルチキューモード」を参照してください。
トピック
キーログ
次の表は、ヘッドノードのキーログの概要を示したものです。
/var/log/cfn-init.log
-
これは AWS CloudFormation の init ログです。インスタンスのセットアップ時に実行されたすべてのコマンドが含まれています。初期化時の問題のトラブルシューティングに役立ちます。
/var/log/chef-client.log
-
これは Chef クライアントログです。Chef/CINC で実行されたすべてのコマンドが含まれています。初期化時の問題のトラブルシューティングに役立ちます。
/var/log/parallelcluster/slurm_resume.log
-
これは
ResumeProgram
ログです。動的ノードのインスタンスを起動し、動的ノードの起動に関する問題のトラブルシューティングに役立ちます。 /var/log/parallelcluster/slurm_suspend.log
-
これが
SuspendProgram
のログです。動的ノードのインスタンスが終了する際に呼び出されます。動的ノードの終了時の問題をトラブルシューティングするのに役立ちます。このログを確認する際には、clustermgtd
のログも確認する必要があります。 /var/log/parallelcluster/clustermgtd
-
これが
clustermgtd
のログです。ほとんどのクラスターオペレーションのアクションを管理する集中型デーモンとして動作します。起動、終了、クラスターの動作の問題のトラブルシューティングに役立ちます。 /var/log/slurmctld.log
-
Slurm コントロールデーモンのログです。AWS ParallelCluster はスケーリングの決定をしません。むしろ、Slurm の要求を満たすためにリソースの送信を試みます。スケーリングや割り当ての問題、ジョブ関連の問題、スケジューラ関連の起動や終了の問題などに有効です。
コンピュートノードのキーノートは次のとおりです。
/var/log/cloud-init-output.log
-
これは cloud-init
のログです。インスタンスのセットアップ時に実行されたすべてのコマンドが含まれています。初期化時の問題のトラブルシューティングに役立ちます。 /var/log/parallelcluster/computemgtd
-
これが
computemgtd
のログです。各コンピュートノード上で動作し、ヘッドノード上のclustermgtd
デーモンがオフラインになるレアなケースでノードをモニタリングします。予期せぬ終了の問題のトラブルシューティングに役立ちます。 /var/log/slurmd.log
-
これは Slurm コンピュートデーモンのログです。初期化やコンピュートの不具合に関するトラブルシューティングに役立ちます。
ノードの初期化に関する問題のトラブルシューティング
このセクションでは、ノードの初期化に関するトラブルを解決する方法について説明します。これには、ノードが起動しない、電源が入らない、またはクラスターが参加できない、などの問題が含まれます。
ヘッドノード:
該当するログ:
-
/var/log/cfn-init.log
-
/var/log/chef-client.log
-
/var/log/parallelcluster/clustermgtd
-
/var/log/parallelcluster/slurm_resume.log
-
/var/log/slurmctld.log
/var/log/cfn-init.log
と /var/log/chef-client.log
のログを確認します。これらのログには、ヘッドノードのセットアップ時に実行されたすべてのアクションが含まれています。セットアップ中に発生するほとんどのエラーは、/var/log/chef-client.log
ログにエラーメッセージが表示されます。クラスターの構成でプリインストールまたはポストインストールのスクリプトが指定されている場合、スクリプトが正常に実行されていることをログメッセージで再確認します。
クラスターが作成されると、ヘッドノードはコンピュートノードがクラスターに参加するのを待ってからクラスターに参加する必要があります。そのため、コンピュートノードがクラスターに参加できないと、ヘッドノードも失敗してしまいます。このような問題を解決するためには、使用しているコンピュートノートの種類に応じて、次の手順のいずれかを実行します。
動的コンピュートノード:
-
ResumeProgram
ログ (/var/log/parallelcluster/slurm_resume.log
)でコンピュートノード名を検索し、そのノードでResumeProgram
が呼ばれたことがあるかどうかを調べます。(ResumeProgram
が一度も呼ばれなかった場合、slurmctld
のログ (/var/log/slurmctld.log
) を確認することで、Slurm がノードを使ってResumeProgram
を呼び出そうとしたことがあるかどうかを調べることができます) -
なお、
ResumeProgram
のパーミッションが正しくないと、ResumeProgram
がバックグラウンドで失敗する可能性があります。ResumeProgram
の設定を変更したカスタム AMI を使用している場合は、ResumeProgram
の所有者がslurm
ユーザーであり、744
(rwxr--r--
) の許可を持っていることを確認してください。 -
ResumeProgram
が呼ばれた場合、そのノードのインスタンスが起動しているかどうかを確認します。インスタンスが起動しなかった場合は、起動の失敗を示すエラーメッセージが表示されます。 -
インスタンスが起動する場合は、セットアップ時に問題が発生した可能性があります。
ResumeProgram
のログに対応するプライベート IP アドレスとインスタンス ID が表示されます。さらに、特定のインスタンスに対応するセットアップログを確認することができます。コンピュートノードのセットアップエラーのトラブルシューティングについては、次のセクションを参照してください。
静的コンピュートノード:
-
clustermgtd
(/var/log/parallelcluster/clustermgtd
) ログをチェックして、ノードに対してインスタンスが起動されたかどうかを確認します。起動できなかった場合は、起動できなかったことを示す明確なエラーメッセージが表示されます。 -
インスタンスが起動した場合、セットアップ中に何らかの問題が発生します。
ResumeProgram
のログに対応するプライベート IP アドレスとインスタンス ID が表示されます。さらに、特定のインスタンスに対応するセットアップログを確認することができます。
-
コンピュートノード
-
該当するログ:
-
/var/log/cloud-init-output.log
-
/var/log/slurmd.log
-
-
コンピュートノードが起動した場合、まず
/var/log/cloud-init-output.log
を確認します。ヘッドノードの/var/log/chef-client.log
ログと同様のセットアップログが含まれているはずです。セットアップ中に発生するほとんどのエラーは、/var/log/cloud-init-output.log
ログにエラーメッセージが表示されます。クラスター構成でプレインストールまたはポストインストールスクリプトが指定されている場合、それらが正常に実行されたかどうかを確認します。 -
Slurm の設定を変更したカスタム AMI を使用している場合は、Slurm 関連のエラーが発生し、コンピュートノードがクラスターに参加できない可能性があります。スケジューラ関連のエラーについては、
/var/log/slurmd.log
のログを確認してください。
-
予期しないノードの置換や終了のトラブルシューティング
このセクションでは、ノードに関連する問題、特にノードが予期せず置換されたり終了したりした場合のトラブルシューティング方法について引き続き説明します。
-
該当するログ:
-
/var/log/parallelcluster/clustermgtd
(ヘッドノード) -
/var/log/slurmctld.log
(ヘッドノード) -
/var/log/parallelcluster/computemgtd
(コンピュートノード)
-
-
予期せず置換または終了したノード
-
clustermgtd
のログ (/var/log/parallelcluster/clustermgtd
) で、clustermgtd
がノードの交換や終了のアクションをとったかどうかを確認します。なお、clustermgtd
は通常のノードメンテナンスのアクションをすべて行います。 -
clustermgtd
がノードを置換または終了させた場合、なぜそのアクションがノードに対して行われたのかを詳細に説明するメッセージが必要です。スケジューラ関連の理由 (例えば、ノードがDOWN
にあるため) の場合は、slurmctld
ログで確認してください。理由が Amazon EC2 に関連するものであれば、置換を必要とする Amazon EC2 に関連する問題の詳細を示す情報メッセージが表示されるはずです。 -
clustermgtd
がノードを終了させなかった場合は、まず、これがAmazon EC2 によって予期された終了であるかどうか、より具体的には一時的な終了であるかどうかを確認します。computemgtd
はコンピュートノード上で動作しており、clustermgtd
が健全でないと判断された場合、ノードを終了させるアクションを取ることもできます。computemgtd
のログ (/var/log/parallelcluster/computemgtd
) を確認し、computemgtd
がノードを終了したかどうかを確認します。
-
-
ノードが失敗しました
-
slurmctld
ログ (/var/log/slurmctld.log
) で、ジョブやノードが失敗した理由を確認します。なお、ノードに障害が発生した場合、ジョブは自動的に再キューされます。 -
slurm_resume
がノードの起動を報告し、clustermgtd
が数分後にそのノードに対応するインスタンスが Amazon EC2 に存在しないと報告した場合、ノードはセットアップ中に失敗する可能性があります。コンピュート (/var/log/cloud-init-output.log
) からログを取得するには、次の手順で行います。-
Slurm が新しいノードを立ち上げるためのジョブを送信します。
-
ノードが起動したら、このコマンドで終了保護を有効にします。
aws ec2 modify-instance-attribute --instance-id i-xyz --disable-api-termination
-
このコマンドで、ノードのコンソール出力を取得します。
aws ec2 get-console-output --instance-id i-xyz --output text
-
-
問題のあるインスタンスやノードの置換、終了、電源オフ
-
該当するログ:
-
/var/log/parallelcluster/clustermgtd
(ヘッドノード) -
/var/log/parallelcluster/slurm_suspend.log
(ヘッドノード)
-
-
通常、
clustermgtd
は期待されるすべてのインスタンス終了アクションを処理します。clustermgtd
ログを見て、ノードの置換または終了に失敗した理由を確認します。 -
scaledown_idletime に失敗した動的ノードの場合、
SuspendProgram
ログでSuspendProgram
がslurmctld
から特定のノードを引数として呼び出されたかどうかを確認します。なお、SuspendProgram
は実際には何のアクションもしません。呼び出されたときだけログに記録されます。インスタンスの終了やNodeAddr
のリセットは全てclustermgtd
が行います。Slurm はSuspendTimeout
の後、自動的にノードをPOWER_SAVING
状態に戻します。
その他の既知のノードやジョブの問題のトラブルシューティング
もうひとつの既知の問題は、AWS ParallelCluster がジョブの割り当てやスケーリングの決定に失敗することです。このタイプの発行では、Slurm の指示に従って、リソースの起動、AWS ParallelCluster の終了、または維持のみが行われます。これらの問題については、slurmctld
ログを確認してトラブルシューティングを行ってください。
シングルキューモードのクラスターにおける問題のトラブルシューティング
注記
バージョン 2.11.5 以降、AWS ParallelCluster は SGE または Torque スケジューラの使用をサポートしていません。
ここでは、次の 2 つの構成のうち、マルチキューモードを持たないクラスターに適用します。
-
AWS ParallelCluster のバージョンが 2.9.0 より前で、SGE、Torque、Slurm のジョブスケジューラを使用して起動
-
AWS ParallelCluster のバージョンが 2.9.0 以降で、SGE または Torque のジョブスケジューラを使用して起動
キーログ
次のログファイルは、ヘッドノードのキーログです。
AWS ParallelCluster バージョン 2.9.0 以降:
/var/log/chef-client.log
-
これは CINC (chef) のクライアントログです。CINC で実行されたすべてのコマンドが含まれています。初期化時の問題のトラブルシューティングに役立ちます。
AWS ParallelCluster の全バージョンが対象:
/var/log/cfn-init.log
-
これが
cfn-init
のログです。インスタンスのセットアップ時に実行されたすべてのコマンドが含まれているため、初期化に関する問題のトラブルシューティングに役立ちます。詳細については、「cfn-init」を参照してください。 /var/log/clustermgtd.log
-
これは Slurm スケジューラの
clustermgtd
のログです。clustermgtd
はほとんどのクラスターオペレーションのアクションを管理する集中型デーモンとして動作します。起動、終了、クラスターの動作の問題のトラブルシューティングに役立ちます。 /var/log/jobwatcher
-
これは、SGE およびTorque スケジューラの
jobwatcher
のログです。jobwatcher
はスケジューラキューをモニターし、Auto Scaling グループを更新します。ノードのスケールアップに関する問題のトラブルシューティングに役立ちます。 /var/log/sqswatcher
-
これは SGE および Torque スケジューラの
sqswatcher
のログです。sqswatcher
は、初期化に成功したコンピューティングインスタンスから送られてくるインスタンス準備イベントを処理します。また、スケジューラの構成にコンピュートノードを追加します。このログは、ノードがクラスターへの参加に失敗した場合のトラブルシューティングに役立ちます。
以下は、コンピュートノードのキーログです。
AWS ParallelCluster バージョン 2.9.0 以降
/var/log/cloud-init-output.log
-
これは Cloud init のログです。インスタンスのセットアップ時に実行されたすべてのコマンドが含まれています。初期化時の問題のトラブルシューティングに役立ちます。
AWS ParallelCluster 2.9.0 より前のバージョン
/var/log/cfn-init.log
-
これは CloudFormation のログです。インスタンスのセットアップ時に実行されたすべてのコマンドが含まれています。初期化に関する問題のトラブルシューティングに役立ちます。
すべてのバージョン
/var/log/nodewatcher
-
これは
nodewatcher
のログです。SGE および Torque スケジューラを使用している場合に各コンピューティングノード上で動作するnodewatcher
デーモンです。アイドル状態のノードはスケールダウンします。このログは、リソースのスケールダウンに関する問題に役立ちます。
起動および参加オペレーションの失敗のトラブルシューティング
-
該当するログ:
-
/var/log/cfn-init-cmd.log
(ヘッドノードとコンピュートノード) -
/var/log/sqswatcher
(ヘッドノード)
-
-
ノードの起動に失敗した場合は、
/var/log/cfn-init-cmd.log
ログで特定のエラーメッセージを確認します。通常、ノードの起動の失敗はセットアップの失敗が原因です。 -
スケジューラの設定に成功したにもかかわらず、コンピュートノードがスケジューラの設定に参加できなかった場合、
/var/log/sqswatcher
ログを確認し、sqswatcher
がイベントを処理したかどうかを確認します。通常、これらの問題は、sqswatcher
がイベントを処理していないことが原因です。
スケーリング問題のトラブルシューティング
-
該当するログ:
-
/var/log/jobwatcher
(ヘッドノード) -
/var/log/nodewatcher
(コンピュートノード)
-
-
スケールアップの問題:ヘッドノードの場合、
/var/log/jobwatcher
ログを確認し、jobwatcher
デーモンが必要なノード数を適切に計算し、Auto Scaling グループを更新したかどうかを確認します。なお、jobwatcher
はスケジューラのキューをモニターし、Auto Scaling グループを更新します。 -
スケールダウンの問題:コンピュートノードの場合、問題のノードの
/var/log/nodewatcher
ログを確認し、ノードがスケールダウンした理由を確認します。nodewatcher
デーモンは、コンピュートノードがアイドル状態になるとスケールダウンします。
他のクラスター関連の問題のトラブルシューティング
ラージスケールのクラスター、特に 500 台以上のコンピュートノードを持つクラスターでは、コンピュートノートがランダムに故障するという問題があります。この問題は、シングルキュークラスターのスケーリングアーキテクチャの制限に関連しています。ラージスケールのクラスターを使用する場合、AWS ParallelCluster バージョン v2.9.0 以降を使用している場合、Slurm を使用している場合、およびこの問題を回避したい場合は、アップグレードしてマルチキューモードに対応したクラスターに切り替える必要があります。pcluster-config convert を実行することで可能になります。
ラージスケールのクラスターでは、システムに追加のチューニングが必要な場合があります。詳細については、「サポート」にお問い合わせください。
プレイスメントグループとインスタンスの起動に関する問題
ノード間のレイテンシーを最小にするには、プレースメントグループを使用します。プレイスメントグループにより、確実にインスタンスが同じネットワーキングバックボーンに配置されます。リクエスト時に十分な数のインスタンスが用意されていない場合は、InsufficientInstanceCapacity
エラーが返ります。クラスタープレイスメントグループを使用する際にこのエラーが発生する可能性を減らすために、placement_group パラメータを DYNAMIC
に、placement パラメータを compute
に設定します。
高性能な共有ファイルシステムが必要な場合は、FSx for Lustre
ヘッドノードがプレースメントグループに含まれている必要がある場合は、ヘッドノードとすべてのコンピュートノードに同じインスタンスタイプとサブネットを使用します。これにより、compute_instance_type パラメータは master_instance_type パラメータと同じ値になり、placement パラメータは cluster
に設定され、compute_subnet_id パラメータは指定されません。この設定では、master_subnet_id パラメータの値がコンピュートノードに使用されます。
詳細については、「Amazon EC2 ユーザーガイド」の「インスタンスの起動に関する問題のトラブルシューティング」と「プレイスメントグループの役割と制限」を参照してください。
置き換えられないディレクトリ
以下のディレクトリはノード間で共有され、置き換えることはできません。
/home
-
これには、デフォルトユーザーのホームフォルダ (Amazon Linux では
/home/ec2_user
、CentOS では/home/centos
、Ubuntu では/home/ubuntu
)が含まれます。 /opt/intel
-
これには、Intel MPI、Intel Parallel Studio、および関連ファイルが含まれます。
/opt/sge
-
注記
バージョン 2.11.5 以降は、SGE または Torque スケジューラの使用は AWS ParallelCluster ではサポートされていません。
これには、Son of Grid Engine および関連ファイルが含まれます。(条件付き、scheduler
= sge
の場合のみ) /opt/slurm
-
これには、Slurm Workload Manager および関連ファイルが含まれます。(条件付き、scheduler
= slurm
の場合のみ) /opt/torque
-
注記
バージョン 2.11.5 以降は、SGE または Torque スケジューラの使用は AWS ParallelCluster ではサポートされていません。
これには、Torque Resource Manager および関連ファイルが含まれます。(条件付き、scheduler
= torque
の場合のみ)
Amazon DCV の問題のトラブルシューティング
Amazon DCV のログ
Amazon DCV のログは /var/log/dcv/
ディレクトリのファイルに書き込まれます。これらのログを確認することは、問題の解決に役立ちます。
Amazon DCV インスタンスタイプメモリ
インスタンスタイプには、Amazon DCV を実行するために、少なくとも 1.7 ギビバイト (GiB) の RAM が必要です。Nano および micro のインスタンスタイプには、Amazon DCV を実行するのに十分なメモリがありません。
Ubuntu の Amazon DCV の問題
Ubuntu の DCV セッションで Gnome ターミナルを実行すると、AWS ParallelCluster がログインシェルから利用できるユーザー環境に自動的にアクセスできない場合があります。ユーザー環境には、openmpi や intelmpi などの環境モジュールやその他のユーザー設定が用意されています。
Gnome ターミナルのデフォルト設定では、シェルをログインシェルとして起動することはできません。つまり、シェルプロファイルは自動的に取得されず、AWS ParallelCluster ユーザー環境も読み込まれません。
シェルプロファイルを適切に取得して AWS ParallelCluster ユーザー環境にアクセスするには、次のいずれかを行います。
-
デフォルトのターミナル設定を変更します。
-
Gnome ターミナルで [編集] メニューを選択します。
-
[設定]、[プロファイル] の順に選択します。
-
[コマンド] を選択し、[ログインシェルとしてコマンドを実行] を選択します。
-
[新しいターミナル] を開きます。
-
-
コマンドラインを使用して、使用可能なプロファイルを取得します。
$
source /etc/profile && source $HOME/.bashrc
AWS Batch 統合されたクラスターにおける問題のトラブルシューティング
このセクションは、AWS Batch スケジューラが統合されたクラスターに関連しています。
ヘッドノードの問題
ヘッドノードに関連するセットアップの問題は、シングルキューのクラスターと同様にトラブルシューティングが可能です。これらの問題を解決する方法の詳細については、「シングルキューモードのクラスターにおける問題のトラブルシューティング」を参照してください。
AWS Batch マルチノード並列ジョブ送信の問題
ジョブスケジューラとして AWS Batch を使用するときにマルチノード並列ジョブの送信に問題がある場合は、AWS ParallelCluster バージョン 2.5.0 にアップグレードする必要があります。それが不可能な場合は、トピック「Self patch a cluster used for submitting multi-node parallel jobs through AWS Batch
コンピューティングの問題
AWS Batch は、お客様のサービスのスケーリングとコンピューティング面を管理します。コンピューティング関連の問題が発生した場合は、AWS Batch のトラブルシューティングのドキュメントを参照してください。
ジョブの失敗
ジョブが失敗した場合は、awsbout
コマンドを実行してジョブの出力を取得することができます。また、awsbstat -d
コマンドを実行して、Amazon CloudWatch が保存しているジョブログへのリンクを取得することもできます。
リソースの作成に失敗したときのトラブルシューティング
このセクションは、クラスターリソースが作成に失敗した場合に関連しています。
リソースの作成に失敗すると、ParallelCluster は次のようなエラーメッセージを返します。
pcluster create -c config
my-cluster
Beginning cluster creation for cluster: my-cluster WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). WARNING: The instance type 'p4d.24xlarge' cannot take public IPs. Please make sure that the subnet with id 'subnet-1234567890abcdef0' has the proper routing configuration to allow private IPs reaching the Internet (e.g. a NAT Gateway and a valid route table). Info: There is a newer version 3.0.3 of AWS ParallelCluster available. Creating stack named: parallelcluster-my-cluster Status: parallelcluster-my-cluster - ROLLBACK_IN_PROGRESS Cluster creation failed. Failed events: - AWS::CloudFormation::Stack MasterServerSubstack Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer]. - AWS::CloudFormation::Stack parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL The following resource(s) failed to create: [MasterServer]. - AWS::EC2::Instance MasterServer You have requested more vCPU capacity than your current vCPU limit of 0 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit. (Service: AmazonEC2; Status Code: 400; Error Code: VcpuLimitExceeded; Request ID: a9876543-b321-c765-d432-dcba98766789; Proxy: null) }
たとえば、前のコマンドレスポンスにステータスメッセージが表示される場合は、現在の vCPU 制限を超えないインスタンスタイプを使用するか、vCPU 容量の追加をリクエストする必要があります。
CloudFormation コンソールを使用して "Cluster creation failed"
ステータスに関する情報を確認することもできます。
コンソールから CloudFormation のエラーメッセージを表示します。
-
AWS Management Console にログインし、https://console.aws.amazon.com/cloudformation
に移動します。 -
スタック名は parallelcluster-
cluster_name
を選択します。 -
[イベント] タブを選択します。
-
[論理 ID] でリソースイベントのリストをスクロールして、作成に失敗したリソースの [ステータス] を確認します。サブタスクの作成に失敗した場合は、失敗したリソースイベントを見つけるために逆算します。
-
AWS CloudFormation エラーメッセージの例:
2022-02-07 11:59:14 UTC-0800 MasterServerSubstack CREATE_FAILED Embedded stack arn:aws:cloudformation:region-id:123456789012:stack/parallelcluster-my-cluster-MasterServerSubstack-ABCDEFGHIJKL/a1234567-b321-c765-d432-dcba98766789 was not successfully created: The following resource(s) failed to create: [MasterServer].
IAM ポリシーのサイズに関する問題のトラブルシューティング
ロールにアタッチされた管理ポリシーのクォータを確認するには、「IAM クォータおよび AWS STS クォータ、名前の要件、および文字の制限」を参照してください。管理ポリシーのサイズがクォータを超える場合は、ポリシーを 2 つ以上のポリシーに分割してください。IAM ロールにアタッチされたポリシー数のクォータを超えた場合は、追加のロールを作成し、そのロール間でポリシーを配布してクォータを満たすようにします。
追加のサポート
既知の問題点の一覧は、GitHub Wiki