srun のインタラクティブなジョブがエラー srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf で失敗するジョブが squeue コマンドで、CF 状態でスタックしている大規模なジョブを実行し、nfsd: too many open connections, consider increasing the number of threads in /var/log/messages が表示されている MPI ジョブの実行

ジョブの実行を試行する

次のセクションでは、ジョブの実行中に問題が発生した場合に考えられるトラブルシューティングソリューションを提供します。

`srun` のインタラクティブなジョブがエラー `srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf` で失敗する

失敗した原因

srun コマンドを実行してジョブを送信し、コマンドを使用してキューのサイズを増やpcluster update-clusterし、Slurm 更新が完了した後のデーモン。

Slurm を整理する Slurm 通信を最適化するためのツリー階層内のデーモン。この階層は、デーモンが開始するときにのみ更新されます。

srun を使用してジョブを起動し、pcluster update-cluster コマンドを実行してキューサイズを増やすとします。新しいコンピューティングノードは、更新の一環として起動します。次に、Slurm は、ジョブを新しいコンピューティングノードの 1 つにキューに入れます。この場合、Slurm デーモンと srun は新しいコンピューティングノードを検出しません。は新しいノードを検出しないため、エラーsrunを返します。
解決方法

を再起動する Slurm すべてのコンピューティングノードのデーモンを使用し、 srunを使用してジョブを送信します。をスケジュールできます。Slurm デーモンは、コンピューティングノードを再起動するscontrol rebootコマンドを実行して再起動します。詳細については、「」の「scontrol reboot」を参照してください。Slurm ドキュメント内) を参照してください。また、手動でを再起動することもできます。Slurm 対応するsystemdサービスの再起動をリクエストして、コンピューティングノード上のデーモン。

ジョブが `squeue` コマンドで、`CF` 状態でスタックしている

これは、動的ノードの電源を入れる時の問題である可能性があります。詳細については、「コンピューティンティングノードの初期化のエラーが表示されている」を参照してください。

大規模なジョブを実行し、`nfsd: too many open connections, consider increasing the number of threads in /var/log/messages` が表示されている

ネットワークに接続されたファイルシステムでは、ネットワークの制限に到達すると、I/O の待機時間も増加します。ネットワークと I/O メトリクスの両方のデータを書き込むのにネットワークが使用されるため、これによりソフトロックアップになることがあります。

第 5 世代インスタンスでは、 ENAドライバーを使用してパケットカウンターを公開します。これらのカウンターは、ネットワークがインスタンス帯域幅制限に達した AWS ときにによって形成されたパケットをカウントします。これらのカウンターを確認して 0 より大きいかどうかを確認できます。その場合、帯域幅制限を超えていることになります。ethtool -S eth0 | grep exceeded を実行するとこれらのカウンターが表示されます。

ネットワーク制限を超えると、多くの場合、サポートするNFS接続が多すぎます。これは、ネットワークの制限に到達したり、それを超えたりしたときに最初に確認することの 1 つです。

例えば、次の出力にドロップされたパッケージを示します。


$ ethtool -S eth0 | grep exceeded
  bw_in_allowance_exceeded: 38750610
  bw_out_allowance_exceeded: 1165693
  pps_allowance_exceeded: 103
  conntrack_allowance_exceeded: 0
  linklocal_allowance_exceeded: 0

このメッセージの表示を回避するには、ヘッドノードのインスタンスタイプをよりパフォーマンスの高いインスタンスタイプに変更することを検討します。Amazon EFSや Amazon などのNFS共有としてエクスポートされない共有ストレージファイルシステムにデータストレージを移動することを検討してくださいFSx。詳細については、「」の AWS ParallelCluster 「Wiki の共有ストレージ」および「ベストプラクティス」を参照してください GitHub。

MPI ジョブの実行

デバッグモードを有効にする

OpenMPI debug モードを有効にするには、「のデバッグに役立つ Open のコントロールMPIとは」を参照してください。

IntelMPI デバッグモードを有効にするには、「その他の環境変数」を参照してください。

ジョブ出力の `MPI_ERRORS_ARE_FATAL` と `OPAL ERROR` が表示されている

これらのエラーコードは、アプリケーションのMPIレイヤーから取得されます。アプリケーションからMPIデバッグログを取得する方法については、「」を参照してくださいデバッグモードを有効にする。

このエラーの考えられる原因は、アプリケーションが Open などの特定のMPI実装用にコンパイルされておりMPI、Intel などの別のMPI実装で実行しようとしていることですMPI。同じMPI実装でアプリケーションをコンパイルして実行していることを確認します。

マネージドDNS無効化`mpirun`でのの使用

/ Dns SlurmSettings / DisableManagedDnsおよび UseEc2Hostnames をに設定して作成されたクラスターの場合true、Slurm ノード名はによって解決されませんDNS。Slurm nodenames は、が有効になっていない場合や、でMPIジョブが実行されている場合にMPIプロセスをブートストラップできます。Slurm コンテキスト。のガイダンスに従うことをお勧めします。 Slurm MPI でMPIジョブを実行するためのユーザーガイド Slurm.

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

クラスターの作成を試行する

クラスターの更新を試行する

ジョブの実行を試行する

srun のインタラクティブなジョブがエラー srun: error: fwd_tree_thread: can't find address for <host>, check slurm.conf で失敗する

ジョブが squeue コマンドで、CF 状態でスタックしている

大規模なジョブを実行し、nfsd: too many open connections, consider increasing the number of threads in /var/log/messages が表示されている