SGE and Torque integration processes Slurm integration processes

AWS ParallelCluster プロセス

このセクションは、サポートされている従来のジョブスケジューラ (SGE、Slurm、Torque) のいずれかを使用してデプロイされた HPC クラスターにのみ適用されます。これらのスケジューラとともに使用すると、は Auto Scaling グループと基盤となるジョブスケジューラの両方とやり取りすることで、コンピューティングノードのプロビジョニングと削除 AWS ParallelCluster を管理します。

に基づく HPC クラスターの場合 AWS Batch、 AWS ParallelCluster はコンピューティングノード管理 AWS Batch のためにが提供する機能に依存します。

注記

バージョン 2.11.5 以降、は SGEまたはスTorqueケジューラの使用をサポート AWS ParallelCluster していません。2.11.4 までのバージョンで引き続き使用できますが、 AWS サービスおよび AWS サポートチームによる今後の更新やトラブルシューティングのサポートを受けることはできません。

`SGE and Torque integration processes`

注記

このセクションは、 AWS ParallelCluster バージョン 2.11.4 以前のバージョンにのみ適用されます。バージョン 2.11.5 以降は、 AWS ParallelCluster では SGE および Torque スケジューラ、Amazon SNS、Amazon SQS の使用はサポートしていません。

全般的な概要

クラスターのライフサイクルは、ユーザーによって作成された後に始まります。通常、クラスターはコマンドラインインターフェイス (CLI) から実行されます。作成後、クラスターは削除されるまで存在します。 AWS ParallelCluster デーモンは、主に HPC クラスターの伸縮性を管理するために、クラスターノードで実行されます。次の図は、ユーザーのワークフローとクラスターのライフサイクルを示します。以下のセクションでは、クラスターの管理に使用される AWS ParallelCluster デーモンについて説明します。

SGE およびスTorqueケジューラでは、、jobwatcher、および nodewatchersqswatcherプロセス AWS ParallelCluster を使用します。

`jobwatcher`

クラスターが動作しているとき、ルートユーザーが所有するプロセスは、設定されたスケジューラ (SGE または Torque) をモニタリングします。毎分、キューを評価し、いつスケールアップするかを決定します。

`sqswatcher`

sqswatcher プロセスでは、オートスケーリングによって送信される Amazon SQS メッセージをモニタリングして、クラスター内のステータスの変化を通知します。インスタンスがオンラインになると、「instance ready」メッセージが Amazon SQS に送信されます。このメッセージは、ヘッドノード上で実行されている sqs_watcher に送信されます。これらのメッセージは、新しいインスタンスがオンラインになったときや終了したときにキューマネージャーに通知するために使用されるため、それらをキューに追加したり、キューから削除したりすることができます。

`nodewatcher`

nodewatcher プロセスは、コンピューティングシステムの各ノード上で実行されます。ユーザーが定義した scaledown_idletime 期間が過ぎると、インスタンスは終了します。

`Slurm integration processes`

スSlurmケジューラでは、 clustermgtdと computemgtプロセス AWS ParallelCluster を使用します。

`clustermgtd`

ヘテロジニアスモード (queue_settings 値を指定した場合) で動作するクラスターには、ヘッドノード上で動作するクラスター管理デーモン (clustermgtd) プロセスがあります。これらのタスクはクラスター管理デーモンが行います。

非アクティブなパーティションのクリーンアップ
静的容量管理: 静的な容量が常に稼働していることを確認します
スケジューラを Amazon EC2 と同期します。
孤立したインスタンスのクリーンアップ
中断したワークフローの外で発生した Amazon EC2 の終了時にスケジューラーノードの状態を復元します
異常のある Amazon EC2 インスタンスの管理 (Amazon EC2 のヘルスチェックの失敗)
スケジュールされたメンテナンスイベントの管理
異常のあるスケジューラノードの管理 (スケジューラのヘルスチェックの失敗)

`computemgtd`

ヘテロジニアスモード (queue_settings 値を指定した場合) で動作するクラスターには、コンピューティングノード上で動作するコンピューティング管理デーモン (computemgtd) プロセスがあります。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

の AWS ParallelCluster 仕組み

AWS が使用するサービス AWS ParallelCluster