翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Slurm による のアカウンティング AWS ParallelCluster
バージョン 3.3.0 以降では、 AWS ParallelCluster がサポートされています。Slurm クラスター設定パラメータ SlurmSettings / Database による のアカウンティング。
バージョン 3.10.0 以降、 は AWS ParallelCluster をサポートしています。Slurm クラスター設定パラメータ SlurmSettings / ExternalSlurmdbd を使用して外部 Slurmdbd でアカウンティングする。複数のクラスターが同じデータベースを共有する場合は、外部 Slurmdbd を使用することをお勧めします。
With Slurm アカウンティングでは、外部アカウンティングデータベースを統合して、次のことを実行できます。
-
クラスターユーザーまたはユーザーのグループとその他のエンティティを管理する。この機能を使用すると、 を使用できます。Slurmリソース制限の適用、公平配分、QOSs など、 のより高度な機能。
-
ジョブを実行したユーザー、ジョブの期間、および使用するリソースなどのジョブデータを収集して保存する。保存したデータは
sacct
ユーティリティを使用して表示できます。
注記
AWS ParallelCluster が をサポート Slurm の アカウンティング Slurm がサポートする MySQL データベースサーバー
の使用 Slurm 外部を使用した アカウンティング Slurmdbd v3.10.0 AWS ParallelCluster 以降の
を設定する前に Slurm アカウンティング、既存の外部 Slurmdbd データベースサーバー。既存の外部データベースサーバーに接続します。
これを設定するには、以下を定義します。
-
外部 のアドレス Slurmdbd ExternalSlurmdbd/ホストの サーバー。 https://docs.aws.amazon.com/parallelcluster/latest/ug/Scheduling-v3.html#yaml-Scheduling-SlurmSettings-ExternalSlurmdbd-Hostサーバーが存在し、ヘッドノードから到達できる必要があります。
-
外部と通信するための m™ キー Slurmdbd MungeKeySecretArn の サーバー。
チュートリアルを完了するには、「外部アSlurmdbdカウンティングを使用したクラスターの作成」を参照してください。
注記
を管理する責任はお客様にあります。Slurm データベースアカウンティングエンティティ。
AWS ParallelCluster 外部 のアーキテクチャ SlurmDB サポート機能を使用すると、複数のクラスターが同じ を共有できます。SlurmDB および同じデータベース。
警告
AWS ParallelCluster と外部間のトラフィック SlurmDB は暗号化されません。クラスターと外部 を実行することをお勧めします。SlurmDB 信頼されたネットワーク内の 。
の使用 Slurm ヘッドノードを使用した のアカウンティング Slurmdbd v3.3.0 AWS ParallelCluster 以降の
を設定する前に Slurm アカウンティングでは、既存の外部データベースサーバーと、mysql
プロトコルを使用するデータベースが必要です。
を設定するには Slurm では AWS ParallelCluster、以下を定義する必要があります。
チュートリアルを完了するには、「を使用したクラスターの作成 Slurm アカウンティング」を参照してください。
注記
AWS ParallelCluster は、 の基本的なブートストラップを実行します。Slurm でデフォルトのクラスターユーザーをデータベース管理者として設定してデータベースをアカウンティングする Slurm database. AWS ParallelCluster does は、アカウンティングデータベースに他のユーザーを追加しません。お客様は、 の会計エンティティを管理する責任があります。Slurm データベース。
AWS ParallelCluster は、クラスターに独自の があることを確認するslurmdbd
slurmdbd
設定ファイルStorageLoc
警告
-
一度に同じデータベースを使用するように複数のクラスターを設定することはお勧めしません。これにより、パフォーマンスの問題またはデータベースのデッドロック状態が発生する可能性があります。
-
If Slurm アカウンティングはクラスターのヘッドノードで有効になっています。強力な CPU、より多くのメモリ、およびより高いネットワーク帯域幅を持つインスタンスタイプを使用することをお勧めします。Slurm アカウンティングは、クラスターのヘッドノードに負荷をかける可能性があります。
の現在のアーキテクチャ AWS ParallelCluster Slurm アカウンティング機能では、次の図の設定例に示すように、各クラスターにはslurmdbd
デーモンの独自のインスタンスがあります。
カスタム を追加する場合 Slurm クラスター環境へのマルチクラスターまたはフェデレーション機能では、すべてのクラスターが同じslurmdbd
インスタンスを参照する必要があります。この代替方法として、 を有効にすることをお勧めします。 AWS ParallelCluster Slurm を 1 つのクラスターにアカウンティングし、最初のクラスターでホストslurmdbd
されている に接続するように他のクラスターを手動で設定します。
AWS ParallelCluster バージョン 3.3.0 より前のバージョンを使用している場合は、実装する別の方法を参照してください。Slurm この HPC Blog Post
Slurm アカウンティングに関する考慮事項
異なるVPCsのデータベースとクラスター
を有効にするには Slurm デーslurmdbd
モンが実行する読み取りおよび書き込みオペレーションのバックエンドとして機能するには、データベースサーバーが必要です。クラスターを作成または更新して を有効にする前に Slurm ヘッドノードはデータベースサーバーに到達できる必要があります。
クラスターが使用するもの以外の VPC にデータベースサーバーをデプロイする必要がある場合は、次の点を考慮してください。
-
slurmdbd
クラスター側の とデータベースサーバー間の通信を有効にするには、2 つの VPCs 間の接続を設定する必要があります。詳細については、「Amazon Virtual Private Cloud ユーザーガイド」のVPC Peering」を参照してください。 Amazon Virtual Private Cloud -
クラスターの VPC のヘッドノードにアタッチするセキュリティグループを作成する必要があります。2 つの VPCs がピアリング接続されると、データベース側とクラスター側のセキュリティグループ間のクロスリンクが可能になります。詳細については、「Amazon Virtual Private Cloud ユーザーガイド」の「セキュリティグループのルール」を参照してください。
slurmdbd
とデータベースサーバー間の TLS 暗号化の設定
デフォルト Slurm サーバーが Amazon TLS などの Word encryption. AWS database サービスをサポートし、デフォルトで TLS 暗号化 Amazon Aurora をサポートしている場合、 AWS ParallelCluster が提供する アカウンティング設定は、データベースサーバーへの RDS TLS暗号化接続slurmdbd
を確立します。
データベースサーバーで require_secure_transport
パラメータを設定することにより、サーバー側の安全な接続を要求できます。これは provided CloudFormation テンプレートで設定されます。
セキュリティのベストプラクティスに従って、slurmdbd
クライアントのサーバー ID 検証も有効にすることをお勧めします。これを行うには、 で StorageParametersslurmdbd.conf
。サーバー CA 証明書をクラスターのヘッドノードにアップロードします。次に、 StorageParameters
の の SSL_CAslurmdbd.conf
をヘッドノードのサーバー CA 証明書のパスに設定します。これにより、slurmdbd
側でのサーバー ID 検証が有効になります。これらの変更を行った後、slurmdbd
サービスを再起動して ID 検証が有効になっているデータベースサーバーへの接続を再確立します。
データベース認証情報を更新する
データベース/UserName または PasswordSecretArn の値を更新するには、まずコンピューティングフリートを停止する必要があります。シークレットに保存されている AWS Secrets Manager シークレット値が変更され、その ARN が変更されないとします。この状況では、クラスターは自動的にデータベースのパスワードを新しい値に更新しません。新しいシークレット値のクラスターを更新するには、ヘッドノードから次のコマンドを実行します。
$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告
財務データが失われないように、コンピューティングフリートが停止している場合にのみデータベースパスワードを変更することをお勧めします。
データベースのモニタリング
AWS データベースサービスのモニタリング機能を有効にすることをお勧めします。詳細については、「Amazon RDS モニタリング」または「Amazon Aurora モニタリングドキュメント」を参照してください。