Slurm 設定のカスタマイズ - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm 設定のカスタマイズ

AWS ParallelCluster バージョン 3.6.0 以降では、 AWS ParallelCluster クラスターslurm.confSlurm設定で設定をカスタマイズできます。

クラスター設定では、以下の クラスター構成設定を使用してSlurm 設定パラメータをカスタマイズできます。

Slurm を使用する際の設定のカスタマイズの制限と考慮事項 AWS ParallelCluster

  • CustomSlurmSettings および CustomSlurmSettingsIncludeFile設定では、クラスターの設定に使用しているSlurmバージョンでサポートされている AWS ParallelCluster バージョンに含まれるslurm.confパラメータのみを指定および更新できます。

  • パラメータのいずれかでカスタムSlurm設定を指定するとCustomSlurmSettings、 は検証チェック AWS ParallelCluster を実行し、 AWS ParallelCluster ロジックと競合するSlurm設定パラメータの設定や更新を防止します。と競合することがわかっているSlurm設定パラメータは、拒否リストで識別 AWS ParallelCluster されます。拒否リストは、他のSlurm機能が追加されると、将来の AWS ParallelCluster バージョンで変更される可能性があります。詳細については、「CustomSlurmSettings で拒否リストに記載されている Slurm 設定パラメータ」を参照してください。

  • AWS ParallelCluster は、パラメータが拒否リストに含まれているかどうかのみをチェックします。カスタムSlurm設定パラメータの構文またはセマンティクスは検証 AWS ParallelCluster されません。カスタム Slurm 設定パラメータはお客様の責任で検証していただく必要があります。無効なカスタム Slurm 設定パラメータは、クラスターの作成や更新の失敗につながる Slurm デーモンの障害を引き起こす可能性があります。

  • でカスタムSlurm設定を指定した場合CustomSlurmSettingsIncludeFile、 AWS ParallelCluster は検証を実行しません。

  • CustomSlurmSettings および CustomSlurmSettingsIncludeFile は、コンピューティングフリートを停止および起動することなく更新できます。この場合、 は slurmctldデーモン AWS ParallelCluster を再起動し、 scontrol reconfigure コマンドを実行します。

    一部の Slurm 設定パラメータでは、クラスター全体に変更が登録される前に異なる操作が必要になる場合があります。例えば、クラスター内のすべてのデーモンを再起動する必要がある場合があります。更新中にカスタムSlurm設定パラメータ設定を伝達するには AWS ParallelCluster 、オペレーションが十分かどうかを検証する責任があります。 AWS ParallelCluster オペレーションでは不十分な場合は、Slurmドキュメントで推奨されているように、更新された設定を伝達するために必要な追加のアクションを提供するのはお客様の責任です。

CustomSlurmSettings で拒否リストに記載されている Slurm 設定パラメータ

次の表は、 AWS ParallelCluster バージョン 3.6.0 以降の使用を拒否するバージョンを含むパラメータの一覧です。 CustomSlurmSettingsはバージョン 3.6.0 より前の AWS ParallelCluster バージョンではサポートされていません。

クラスターレベルで拒否リストに登録されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョンで拒否リストに登録

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

native Slurm accounting integration がクラスター設定で設定されている場合の、クラスターレベルで拒否リストに登録されているパラメータ:
Slurm パラメータ AWS ParallelCluster バージョンで拒否リストに登録

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

AWS ParallelCluster以下によって管理されるキューのキュー (パーティション) レベルで拒否リストに登録されているパラメータ
Slurm パラメータ AWS ParallelCluster バージョンで拒否リストに登録

ノード

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

状態

3.6.0

SuspendTime

3.6.0

以下によって管理されるコンピューティングリソースのコンピューティングリソース (ノード) レベルで拒否リストに記載されているパラメータ AWS ParallelCluster:
Slurm パラメータ AWS ParallelCluster バージョン 以降のバージョンで拒否リストに登録

CPUs

3.6.0

機能

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

(重量)

3.7.0