Slurm 設定ファイルで HyperPod が管理する特定の設定 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Slurm 設定ファイルで HyperPod が管理する特定の設定

HyperPod で Slurm クラスターを作成すると、HyperPod エージェントは /opt/slurm/etc/slurm.conf ファイルと gres.conf ファイルをセットアップし、HyperPod クラスターの作成リクエストとライフサイクルスクリプトに基づいて Slum クラスターを管理します。次のリストは、HyperPod エージェントが処理および上書きする特定のパラメータを示しています。

重要

HyperPod によって管理されるこれらのパラメータを変更しないことを強くお勧めします。

  • slurm.conf では、HyperPod は基本パラメータ (ClusterNameSlurmctldHostPartitionNameNodeName) を設定します。

    さらに、自動再開 機能を有効にするには、次のように設定された TaskPlugin パラメータと SchedulerParametersパラメータが HyperPod に必要です。HyperPod エージェントは、これらの 2 つのパラメータをデフォルトで必要な値を使用して設定します。

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • gres.conf では、HyperPod は NodeName GPU ノードを管理します。