Slurm による のアカウンティング AWS ParallelCluster - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm による のアカウンティング AWS ParallelCluster

バージョン 3.3.0 以降では、 AWS ParallelCluster がサポートされています。Slurm クラスター設定パラメータ SlurmSettings / Database による のアカウンティング。

バージョン 3.10.0 以降、 は AWS ParallelCluster をサポートしています。Slurm クラスター設定パラメータ SlurmSettings / ExternalSlurmdbd を使用して外部 Slurmdbd でアカウンティングする。複数のクラスターが同じデータベースを共有する場合は、外部 Slurmdbd を使用することをお勧めします。

With Slurm アカウンティングでは、外部アカウンティングデータベースを統合して、次のことを実行できます。

  • クラスターユーザーまたはユーザーのグループとその他のエンティティを管理する。この機能を使用すると、 を使用できます。Slurmリソース制限の適用、公平配分、QOSs など、 のより高度な機能。

  • ジョブを実行したユーザー、ジョブの期間、および使用するリソースなどのジョブデータを収集して保存する。保存したデータは sacct ユーティリティを使用して表示できます。

注記

AWS ParallelCluster が をサポート Slurm の アカウンティング Slurm がサポートする MySQL データベースサーバー

の使用 Slurm 外部を使用した アカウンティング Slurmdbd v3.10.0 AWS ParallelCluster 以降の

を設定する前に Slurm アカウンティング、既存の外部 Slurmdbd データベースサーバー。既存の外部データベースサーバーに接続します。

これを設定するには、以下を定義します。

チュートリアルを完了するには、「外部アSlurmdbdカウンティングを使用したクラスターの作成」を参照してください。

注記

を管理する責任はお客様にあります。Slurm データベースアカウンティングエンティティ。

AWS ParallelCluster 外部 のアーキテクチャ SlurmDB サポート機能を使用すると、複数のクラスターが同じ を共有できます。SlurmDB および同じデータベース。

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

警告

AWS ParallelCluster と外部間のトラフィック SlurmDB は暗号化されません。クラスターと外部 を実行することをお勧めします。SlurmDB 信頼されたネットワーク内の 。

の使用 Slurm ヘッドノードを使用した のアカウンティング Slurmdbd v3.3.0 AWS ParallelCluster 以降の

を設定する前に Slurm アカウンティングでは、既存の外部データベースサーバーと、mysqlプロトコルを使用するデータベースが必要です。

を設定するには Slurm では AWS ParallelCluster、以下を定義する必要があります。

  • データベース/URI 内の外部データベースサーバーのURI。サーバーが存在し、ヘッドノードから到達できる必要があります。

  • データベース/PasswordSecretArn およびデータベース/UserName で定義されている外部データベースにアクセスするための認証情報。この情報 AWS ParallelCluster を使用して、 でアカウンティングを設定します。Slurm レベルとヘッドノード上の slurmdbdサービス。 slurmdbdは、クラスターとデータベースサーバー間の通信を管理するデーモンです。

チュートリアルを完了するには、「を使用したクラスターの作成 Slurm アカウンティング」を参照してください。

注記

AWS ParallelCluster は、 の基本的なブートストラップを実行します。Slurm でデフォルトのクラスターユーザーをデータベース管理者として設定してデータベースをアカウンティングする Slurm database. AWS ParallelCluster does は、アカウンティングデータベースに他のユーザーを追加しません。お客様は、 の会計エンティティを管理する責任があります。Slurm データベース。

AWS ParallelCluster は、クラスターに独自の があることを確認するslurmdbdように を設定します。Slurm データベースサーバー上の データベース。同じデータベースサーバーを複数のクラスターで使用できますが、各クラスターには独自の個別のデータベースがあります。 はクラスター名 AWS ParallelCluster を使用して、slurmdbd設定ファイルStorageLocパラメータでデータベースの名前を定義します。次の状況を考えてみます。データベースサーバーに存在するデータベースに、アクティブなクラスター名にマッピングされていないクラスター名が含まれています。この場合、そのクラスター名を使用して新しいクラスターを作成し、そのデータベースにマッピングできます。Slurm はデータベースを新しいクラスターに再利用します。

警告
  • 一度に同じデータベースを使用するように複数のクラスターを設定することはお勧めしません。これにより、パフォーマンスの問題またはデータベースのデッドロック状態が発生する可能性があります。

  • If Slurm アカウンティングはクラスターのヘッドノードで有効になっています。強力な CPU、より多くのメモリ、およびより高いネットワーク帯域幅を持つインスタンスタイプを使用することをお勧めします。Slurm アカウンティングは、クラスターのヘッドノードに負荷をかける可能性があります。

の現在のアーキテクチャ AWS ParallelCluster Slurm アカウンティング機能では、次の図の設定例に示すように、各クラスターにはslurmdbdデーモンの独自のインスタンスがあります。

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

カスタム を追加する場合 Slurm クラスター環境へのマルチクラスターまたはフェデレーション機能では、すべてのクラスターが同じslurmdbdインスタンスを参照する必要があります。この代替方法として、 を有効にすることをお勧めします。 AWS ParallelCluster Slurm を 1 つのクラスターにアカウンティングし、最初のクラスターでホストslurmdbdされている に接続するように他のクラスターを手動で設定します。

AWS ParallelCluster バージョン 3.3.0 より前のバージョンを使用している場合は、実装する別の方法を参照してください。Slurm この HPC Blog Post で説明されている アカウンティング。

Slurm アカウンティングに関する考慮事項

異なるVPCsのデータベースとクラスター

を有効にするには Slurm デーslurmdbdモンが実行する読み取りおよび書き込みオペレーションのバックエンドとして機能するには、データベースサーバーが必要です。クラスターを作成または更新して を有効にする前に Slurm ヘッドノードはデータベースサーバーに到達できる必要があります。

クラスターが使用するもの以外の VPC にデータベースサーバーをデプロイする必要がある場合は、次の点を考慮してください。

  • slurmdbd クラスター側の とデータベースサーバー間の通信を有効にするには、2 つの VPCs 間の接続を設定する必要があります。詳細については、「Amazon Virtual Private Cloud ユーザーガイド」のVPC Peering」を参照してください。 Amazon Virtual Private Cloud

  • クラスターの VPC のヘッドノードにアタッチするセキュリティグループを作成する必要があります。2 つの VPCs がピアリング接続されると、データベース側とクラスター側のセキュリティグループ間のクロスリンクが可能になります。詳細については、「Amazon Virtual Private Cloud ユーザーガイド」の「セキュリティグループのルール」を参照してください。

slurmdbd とデータベースサーバー間の TLS 暗号化の設定

デフォルト Slurm サーバーが Amazon TLS などの Word encryption. AWS database サービスをサポートし、デフォルトで TLS 暗号化 Amazon Aurora をサポートしている場合、 AWS ParallelCluster が提供する アカウンティング設定は、データベースサーバーへの RDS TLS暗号化接続slurmdbdを確立します。

データベースサーバーで require_secure_transport パラメータを設定することにより、サーバー側の安全な接続を要求できます。これは provided CloudFormation テンプレートで設定されます。

セキュリティのベストプラクティスに従って、slurmdbd クライアントのサーバー ID 検証も有効にすることをお勧めします。これを行うには、 で StorageParameters を設定しますslurmdbd.conf。サーバー CA 証明書をクラスターのヘッドノードにアップロードします。次に、 StorageParametersの SSL_CA オプションslurmdbd.confをヘッドノードのサーバー CA 証明書のパスに設定します。これにより、slurmdbd 側でのサーバー ID 検証が有効になります。これらの変更を行った後、slurmdbd サービスを再起動して ID 検証が有効になっているデータベースサーバーへの接続を再確立します。

データベース認証情報を更新する

データベース/UserName または PasswordSecretArn の値を更新するには、まずコンピューティングフリートを停止する必要があります。シークレットに保存されている AWS Secrets Manager シークレット値が変更され、その ARN が変更されないとします。この状況では、クラスターは自動的にデータベースのパスワードを新しい値に更新しません。新しいシークレット値のクラスターを更新するには、ヘッドノードから次のコマンドを実行します。

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告

財務データが失われないように、コンピューティングフリートが停止している場合にのみデータベースパスワードを変更することをお勧めします。

データベースのモニタリング

AWS データベースサービスのモニタリング機能を有効にすることをお勧めします。詳細については、「Amazon RDS モニタリング」または「Amazon Aurora モニタリングドキュメント」を参照してください。