メトリクスエクスポーターパッケージを HyperPod クラスターにインストールする

チーム SageMaker HyperPod が提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれます。インストールステップを有効にするために必要なのは、 enable_observability=True config.py ファイルにパラメータを設定するだけです。ライフサイクルスクリプトは、以下のオープンソースメトリクスエクスポーターパッケージを使用してクラスターをブートストラップするように設計されています。

名前	スクリプトデプロイターゲットノード	エクスポーターの説明
Prometheus 用の Slurm エクスポーター	ヘッド (コントローラー) ノード	Slurm 会計メトリクスをエクスポートします。
Elastic Fabric Adapter (EFA) ノードエクスポーター	コンピューティングノード	クラスターノードとからメトリクスをエクスポートしますEFA。パッケージは Prometheus ノードエクスポーターのフォークです。
NVIDIA データセンターGPU管理 (DCGM) エクスポーター	コンピューティングノード	のヘルスとパフォーマンスに関するNVIDIADCGMメトリクスNVIDIAをエクスポートしますGPUs。

config.py ファイルenable_observability=True内のでは、次のインストールステップがlifecycle_script.pyスクリプトでアクティブ化されます。


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

コンピューティングノードに、スクリプトは NVIDIA Data Center GPU Management (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus のエクスポーターで、 NVIDIA からメトリクスを収集しGPUs、GPU使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFAノードエクスポーターは、HPCクラスター内の低レイテンシーおよび高帯域幅通信に不可欠なEFAネットワークインターフェイスに関連するメトリクスを収集します。

ヘッドノードに、スクリプトは Prometheus 用の Slurm エクスポーターと Prometheus オープンソースソフトウェアをインストールします。Slurm エクスポーターは、Slurm ジョブ、パーティション、ノード状態に関連するメトリクスを Prometheus に提供します。

ライフサイクルスクリプトはすべてのエクスポーターパッケージを Docker コンテナとしてインストールするように設計されているため、Docker パッケージはヘッドノードとコンピューティングノードの両方にもインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリ の utilsフォルダに便利に提供されます。

エクスポーターパッケージでインストールされた HyperPod クラスターを正常にセットアップしたら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana のセットアップを完了します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

前提条件を完了します。

Prometheus のセットアップを検証する