翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
問題の概要
コンピューティングノードグループの EC2 インスタンスを再起動すると、 AWS PCS は自動的に終了し、インスタンスを置き換えます。
これが発生する理由
AWS PCS はインスタンスの再起動をサポートしていません。EC2 インスタンスを再起動すると、 AWS PCS はインスタンスを異常と見なし、置き換えます。 AWS PCS が継続的にインスタンスを終了して置き換える場合は、起動後にインスタンスが再起動されることが原因である可能性があります。例としては、EC2 インスタンスでのオートメーションによる再起動 (パッチ適用後の自動再起動など)、EC2 インスタンスの外部でのオートメーション (ネットワーク管理アプリケーションなど)、別の AWS サービス ( など AWS Systems Manager)、またはユーザーによる手動再起動などがあります。
対応方法
slurmctld
または slurmd
ログをチェックして、インスタンスが再起動されたかどうかを確認できます。詳細については、AWS PCS スケジューラログおよびAmazon CloudWatch AWS を使用した PCS インスタンスのモニタリングを参照してください。次のslurmctld
ログエントリの例は、インスタンスが再起動したことを示しています。
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
パッチ適用による再起動
パッチを適用した後、再起動が必要になることがよくあります。 AWS PCS コンピューティングノードグループの一部である EC2 インスタンスにパッチを直接適用しないでください。EC2 インスタンスにパッチを適用する必要がある場合は、更新された Amazon マシンイメージ (AMI) にパッチを適用し、更新された AMI を使用するようにコンピューティングノードグループを更新する必要があります。これらのコンピューティングノードグループに対して AWS PCS が起動する新しい EC2 インスタンスは、更新された (パッチが適用された) AMI を使用します。詳細については、「AWS PCS のカスタム Amazon マシンイメージ (AMIs)」を参照してください。