翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Slurm による のアカウンティング AWS ParallelCluster
バージョン 3.3.0 以降では、 AWS ParallelCluster がサポートされています。Slurm クラスター設定パラメータ SlurmSettings / データベース によるアカウンティング。
バージョン 3.10.0 以降では、 AWS ParallelCluster がサポートされています。Slurm クラスター設定パラメータ SlurmSettings / を持つ外部 Slurmdbd でアカウンティングしますExternalSlurmdbd。複数のクラスターが同じデータベースを共有する場合は、外部 Slurmdbd を使用することをお勧めします。
で Slurm 会計では、外部会計データベースを統合して、以下を行うことができます。
-
クラスターユーザーまたはユーザーのグループとその他のエンティティを管理する。この機能を使用すると、Slurmリソース制限の適用、公平共有、 など、 のより高度な機能QOSs。
-
ジョブを実行したユーザー、ジョブの期間、および使用するリソースなどのジョブデータを収集して保存する。保存したデータは
sacct
ユーティリティを使用して表示できます。
注記
AWS ParallelCluster は をサポートします。Slurm の会計 Slurm は MySQL Database Server をサポートしました
の使用 Slurm 外部を使用した のアカウンティング SlurmdbdAWS ParallelCluster v3.10.0 以降
を設定する前に Slurm アカウンティング、既存の外部 Slurmdbd データベースサーバー。既存の外部データベースサーバーに接続します。
これを設定するには、以下を定義します。
-
外部 のアドレス Slurmdbd / ExternalSlurmdbd ホスト のサーバー。サーバーが存在し、ヘッドノードから到達できる必要があります。
-
外部と通信する munge キー Slurmdbd のサーバーMungeKeySecretArn。
チュートリアルを完了するには、「外部アSlurmdbdカウンティングを使用したクラスターの作成」を参照してください。
注記
を管理するのはお客様の責任です。Slurm データベース会計エンティティ。
AWS ParallelCluster 外部 のアーキテクチャ SlurmDB サポート機能により、同じ を共有する複数のクラスターが有効に SlurmDB および同じデータベース。
警告
AWS ParallelCluster と外部間のトラフィック SlurmDB は暗号化されていません。クラスターと外部 を実行することをお勧めします。SlurmDB 信頼されたネットワーク内。
の使用 Slurm ヘッドノードを使用したアカウンティング SlurmdbdAWS ParallelCluster v3.3.0 以降
を設定する前に Slurm アカウンティングでは、mysql
プロトコルを使用する既存の外部データベースサーバーとデータベースが必要です。
を設定するには Slurm で をアカウンティングするには AWS ParallelCluster、以下を定義する必要があります。
-
データベース / Uri のURI外部データベースサーバーの 。 サーバーが存在し、ヘッドノードから到達できる必要があります。
-
Database / PasswordSecretArnおよび Database / で定義されている外部データベースにアクセスするための認証情報UserName。この情報 AWS ParallelCluster を使用して、 でアカウンティングを設定します。Slurm レベルとヘッドノード上の
slurmdbd
サービス。slurmdbd
は、クラスターとデータベースサーバー間の通信を管理するデーモンです。
チュートリアルを完了するには、「を使用したクラスターの作成 Slurm アカウンティング」を参照してください。
注記
AWS ParallelCluster は、 の基本的なブートストラップを実行します。Slurm でデフォルトのクラスターユーザーをデータベース管理者として設定してデータベースをアカウンティングする Slurm database. AWS ParallelCluster doesn は、アカウンティングデータベースに他のユーザーを追加しません。お客様は、 の会計エンティティを管理する責任があります。Slurm データベース。
AWS ParallelCluster は、クラスターに独自の があることを確認するslurmdbd
slurmdbd
設定ファイルStorageLoc
警告
-
一度に同じデータベースを使用するように複数のクラスターを設定することはお勧めしません。これにより、パフォーマンスの問題またはデータベースのデッドロック状態が発生する可能性があります。
-
If Slurm アカウンティングはクラスターのヘッドノードで有効になっています。強力な 、より多くのメモリCPU、より高いネットワーク帯域幅を持つインスタンスタイプを使用することをお勧めします。Slurm アカウンティングは、クラスターのヘッドノードに負担を加える可能性があります。
の現在のアーキテクチャで AWS ParallelCluster Slurm アカウンティング機能では、各クラスターには、次の図の 設定例に示すように、slurmdbd
デーモンの独自のインスタンスがあります。
カスタムを追加する場合 Slurm クラスター環境へのマルチクラスターまたはフェデレーション機能では、すべてのクラスターが同じslurmdbd
インスタンスを参照する必要があります。この代替方法として、 を有効にすることをお勧めします。 AWS ParallelCluster Slurm 1 つのクラスターで をアカウンティングし、最初のクラスターでホストslurmdbd
されている に接続するように他のクラスターを手動で設定します。
AWS ParallelCluster バージョン 3.3.0 より前のバージョンを使用している場合は、実装する代替方法を参照してください。Slurm このHPCブログ記事 で説明されている アカウント
Slurm 会計上の考慮事項
異なる のデータベースとクラスター VPCs
を有効にするには Slurm デーslurmdbd
モンが実行する読み取りおよび書き込みオペレーションのバックエンドとして機能するには、データベースサーバーが必要です。クラスターを作成または更新して有効にする前に Slurm ヘッドノードはデータベースサーバーに到達できる必要があります。
クラスターが使用するVPC以外の にデータベースサーバーをデプロイする必要がある場合は、次の点を考慮してください。
-
slurmdbd
クラスター側の とデータベースサーバー間の通信を有効にするには、2 つの 間の接続を設定する必要がありますVPCs。詳細については、Amazon Virtual Private Cloud ユーザーガイド」のVPC「ピアリング」を参照してください。 -
VPC クラスターの のヘッドノードにアタッチするセキュリティグループを作成する必要があります。2 つのピアリングVPCsが完了すると、データベース側とクラスター側のセキュリティグループ間のクロスリンクを使用できます。詳細については、「Amazon Virtual Private Cloud ユーザーガイド」の「セキュリティグループのルール」を参照してください。
slurmdbd
とデータベースサーバー間のTLS暗号化の設定
デフォルト Slurm サーバーが Amazon などの TLS encryption. AWS database サービスをサポートし、デフォルトでTLS暗号化 Amazon Aurora をサポートしている場合、 AWS ParallelCluster が提供する アカウント設定は、データベースサーバーへのTLS暗号化された接続slurmdbd
を確立RDSします。
データベースサーバーで require_secure_transport
パラメータを設定することにより、サーバー側の安全な接続を要求できます。これは、提供された CloudFormation テンプレートで設定されます。
セキュリティのベストプラクティスに従って、slurmdbd
クライアントのサーバー ID 検証も有効にすることをお勧めします。これを行うには、 StorageParametersslurmdbd.conf
。サーバー CA 証明書をクラスターのヘッドノードにアップロードします。次に、 StorageParameters
の SSL_CAslurmdbd.conf
をヘッドノード上のサーバー CA 証明書のパスに設定します。これにより、slurmdbd
側でのサーバー ID 検証が有効になります。これらの変更を行った後、slurmdbd
サービスを再起動して ID 検証が有効になっているデータベースサーバーへの接続を再確立します。
データベース認証情報を更新する
データベース / UserNameまたは の値を更新するにはPasswordSecretArn、まずコンピューティングフリートを停止する必要があります。シークレットに保存されている AWS Secrets Manager シークレット値が変更され、変更ARNされないとします。この状況では、クラスターは自動的にデータベースのパスワードを新しい値に更新しません。新しいシークレット値のクラスターを更新するには、ヘッドノードから次のコマンドを実行します。
$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告
財務データが失われないように、コンピューティングフリートが停止している場合にのみデータベースパスワードを変更することをお勧めします。
データベースのモニタリング
AWS データベースサービスのモニタリング機能を有効にすることをお勧めします。詳細については、「Amazon RDSモニタリング」または「Amazon Aurora モニタリングドキュメント」を参照してください。