Slurm 設定のカスタマイズ - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm 設定のカスタマイズ

AWS ParallelCluster バージョン 3.6.0 以降、AWS ParallelCluster クラスター設定内の slurm.conf Slurm 設定をカスタマイズできます。

クラスター設定では、以下の クラスター構成設定を使用してSlurm 設定パラメータをカスタマイズできます。

Slurm 設定のカスタマイズの制限と AWS ParallelCluster 使用時の考慮事項

  • CustomSlurmSettings および CustomSlurmSettingsIncludeFile の設定では、クラスターの設定に使用している AWS ParallelCluster でサポートされている Slurm バージョン に含まれる slurm.conf パラメータのみを指定および更新できます。

  • CustomSlurmSettings パラメータにカスタム Slurm 設定を指定すると、AWS ParallelCluster は検証チェックを行い、AWS ParallelCluster ロジックと競合する Slurm 設定パラメータの設定や更新を防ぎます。AWS ParallelCluster と競合することが知られている Slurm の設定パラメータは、拒否リストで識別されます。拒否リストは、将来の AWS ParallelCluster バージョンで他の Slurm 機能が追加された場合に変更される可能性があります。詳細については、「CustomSlurmSettings で拒否リストに記載されている Slurm 設定パラメータ」を参照してください。

  • AWS ParallelCluster はパラメータが拒否リストに含まれているかどうかのみをチェックします。AWS ParallelCluster はカスタム Slurm 設定パラメータの構文やセマンティクスは検証しません。カスタム Slurm 設定パラメータはお客様の責任で検証していただく必要があります。無効なカスタム Slurm 設定パラメータは、クラスターの作成や更新の失敗につながる Slurm デーモンの障害を引き起こす可能性があります。

  • カスタム Slurm 設定を CustomSlurmSettingsIncludeFile に指定した場合、AWS ParallelCluster は検証を行いません。

  • CustomSlurmSettings および CustomSlurmSettingsIncludeFile は、コンピューティングフリートを停止および起動することなく更新できます。この場合、AWS ParallelCluster は slurmctld デーモンを再起動して scontrol reconfigure コマンドを実行します。

    一部の Slurm 設定パラメータでは、クラスター全体に変更が登録される前に異なる操作が必要になる場合があります。例えば、クラスター内のすべてのデーモンを再起動する必要がある場合があります。AWS ParallelCluster の操作が、更新中にカスタム Slurm 設定パラメータの設定を伝達するのに十分かどうかを確認する必要があります。AWS ParallelCluster の操作が不十分だと判明した場合、Slurm ドキュメントで推奨されているように、更新された設定を伝達するために必要な追加アクションを実行する必要があります。

CustomSlurmSettings で拒否リストに記載されている Slurm 設定パラメータ

以下の表は、バージョン 3.6.0 以降の AWS ParallelCluster のバージョンで使用が拒否されているパラメータの一覧です。CustomSlurmSettings はバージョン 3.6.0 より前の AWS ParallelCluster バージョンではサポートされていません。

クラスターレベルで拒否リストに登録されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョンの拒否リスト

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

native Slurm accounting integration がクラスター設定で設定されている場合の、クラスターレベルで拒否リストに登録されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョンの拒否リスト

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

AWS ParallelCluster によって管理されるキューに対して、キュー (パーティション) レベルでの拒否リストに記載されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョンの拒否リスト

ノード

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

状態

3.6.0

SuspendTime

3.6.0

AWS ParallelCluster によって管理されるコンピューティングリソースに対する、コンピューティングリソース (ノード) レベルで拒否リストに記載されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョン以降のバージョンの拒否リスト

CPUs

3.6.0

機能

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

[Weight] (重量)

3.7.0