メトリクスエクスポーターパッケージを HyperPod クラスターにインストールする - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

メトリクスエクスポーターパッケージを HyperPod クラスターにインストールする

チーム SageMaker HyperPod が提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれています。インストールステップをアクティブ化するために必要なのは、 config.py ファイルenable_observability=Trueで パラメータを設定することだけです。ライフサイクルスクリプトは、以下のオープンソースメトリクスエクスポーターパッケージを使用してクラスターをブートストラップするように設計されています。

名前 スクリプトデプロイターゲットノード エクスポーターの説明
Prometheus 用 Slurm エクスポーター ヘッド (コントローラー) ノード

Slurm 会計メトリクスをエクスポートします。

Elastic Fabric Adapter (EFA) ノードエクスポーター

コンピューティングノード

クラスターノードと からメトリクスをエクスポートしますEFA。パッケージは Prometheus ノードエクスポーター のフォークです。

NVIDIA データセンターGPU管理 (DCGM) エクスポーター

コンピューティングノード

のヘルスとパフォーマンスに関するNVIDIADCGMメトリクスNVIDIAをエクスポートしますGPUs。

config.py ファイルenable_observability=True内の では、lifecycle_script.pyスクリプトで次のインストールステップがアクティブ化されます。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

コンピューティングノードに、スクリプトはNVIDIAデータセンターGPU管理 (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus のエクスポーターでGPUs、 NVIDIA からメトリクスを収集し、GPU使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFAノードエクスポーターは、HPCクラスター内の低レイテンシーおよび高帯域幅通信に不可欠なEFAネットワークインターフェイスに関連するメトリクスを収集します。

ヘッドノードに、スクリプトは Prometheus 用の Slurm エクスポーター と Prometheus オープンソースソフトウェア をインストールします。Slurm エクスポーターは、Slurm ジョブ、パーティション、ノードの状態に関連するメトリクスを Prometheus に提供します。

ライフサイクルスクリプトは、すべてのエクスポーターパッケージを Docker コンテナとしてインストールするように設計されているため、Docker パッケージもヘッドノードとコンピューティングノードの両方にインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリutilsフォルダに便利に提供されます。

エクスポーターパッケージで HyperPod クラスターが正常にインストールされたら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana のセットアップを完了します。