翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS ParallelCluster プロセス
このセクションは、サポートされている従来のジョブスケジューラ (SGE、Slurm、Torque) のいずれかを使用してデプロイされた HPC クラスターにのみ適用されます。これらのスケジューラとともに使用すると、 は Auto Scaling グループと基盤となるジョブスケジューラの両方とやり取りすることで、コンピューティングノードのプロビジョニングと削除 AWS ParallelCluster を管理します。
に基づく HPC クラスターの場合 AWS Batch、 AWS ParallelCluster はコンピューティングノード管理 AWS Batch のために が提供する機能に依存します。
注記
バージョン 2.11.5 以降、 は SGEまたは スTorqueケジューラの使用をサポート AWS ParallelCluster していません。2.11.4 までのバージョンで引き続き使用できますが、 AWS サービスおよび AWS サポートチームによる今後の更新やトラブルシューティングのサポートを受けることはできません。
SGE and Torque integration processes
注記
このセクションは、 AWS ParallelCluster バージョン 2.11.4 以前のバージョンにのみ適用されます。バージョン 2.11.5 以降は、 AWS ParallelCluster では SGE および Torque スケジューラ、Amazon SNS、Amazon SQS の使用はサポートしていません。
全般的な概要
クラスターのライフサイクルは、ユーザーによって作成された後に始まります。通常、クラスターはコマンドラインインターフェイス (CLI) から実行されます。作成後、クラスターは削除されるまで存在します。 AWS ParallelCluster デーモンは、主に HPC クラスターの伸縮性を管理するために、クラスターノードで実行されます。次の図は、ユーザーのワークフローとクラスターのライフサイクルを示します。以下のセクションでは、クラスターの管理に使用される AWS ParallelCluster デーモンについて説明します。

SGE および スTorqueケジューラでは、、jobwatcher
、および nodewatcher
sqswatcher
プロセス AWS ParallelCluster を使用します。
jobwatcher
クラスターが動作しているとき、ルートユーザーが所有するプロセスは、設定されたスケジューラ (SGE または Torque) をモニタリングします。毎分、キューを評価し、いつスケールアップするかを決定します。

sqswatcher
sqswatcher
プロセスでは、オートスケーリングによって送信される Amazon SQS メッセージをモニタリングして、クラスター内のステータスの変化を通知します。インスタンスがオンラインになると、「instance ready」メッセージが Amazon SQS に送信されます。このメッセージは、ヘッドノード上で実行されている sqs_watcher
に送信されます。これらのメッセージは、新しいインスタンスがオンラインになったときや終了したときにキューマネージャーに通知するために使用されるため、それらをキューに追加したり、キューから削除したりすることができます。

nodewatcher
nodewatcher
プロセスは、コンピューティングシステムの各ノード上で実行されます。ユーザーが定義した scaledown_idletime
期間が過ぎると、インスタンスは終了します。

Slurm integration processes
スSlurmケジューラでは、 clustermgtd
と computemgt
プロセス AWS ParallelCluster を使用します。
clustermgtd
ヘテロジニアスモード (queue_settings 値を指定した場合) で動作するクラスターには、ヘッドノード上で動作するクラスター管理デーモン (clustermgtd
) プロセスがあります。これらのタスクはクラスター管理デーモンが行います。
-
非アクティブなパーティションのクリーンアップ
-
静的容量管理: 静的な容量が常に稼働していることを確認します
-
スケジューラを Amazon EC2 と同期します。
-
孤立したインスタンスのクリーンアップ
-
中断したワークフローの外で発生した Amazon EC2 の終了時にスケジューラーノードの状態を復元します
-
異常のある Amazon EC2 インスタンスの管理 (Amazon EC2 のヘルスチェックの失敗)
-
スケジュールされたメンテナンスイベントの管理
-
異常のあるスケジューラノードの管理 (スケジューラのヘルスチェックの失敗)
computemgtd
ヘテロジニアスモード (queue_settings 値を指定した場合) で動作するクラスターには、コンピューティングノード上で動作するコンピューティング管理デーモン (computemgtd
) プロセスがあります。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。