翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
メトリクスエクスポーターパッケージを HyperPod クラスターにインストールする
チーム SageMaker HyperPod が提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれます。インストールステップを有効にするために必要なのは、 enable_observability=True
config.py
名前 | スクリプトデプロイターゲットノード | エクスポーターの説明 |
Prometheus 用の Slurm エクスポーター |
ヘッド (コントローラー) ノード |
Slurm 会計メトリクスをエクスポートします。 |
コンピューティングノード |
クラスターノードと からメトリクスをエクスポートしますEFA。パッケージは Prometheus ノードエクスポーター |
|
コンピューティングノード |
のヘルスとパフォーマンスに関するNVIDIADCGMメトリクスNVIDIAをエクスポートしますGPUs。 |
config.py
enable_observability=True
内の では、次のインストールステップがlifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
コンピューティングノードに、スクリプトは NVIDIA Data Center GPU Management (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus のエクスポーターで、 NVIDIA からメトリクスを収集しGPUs、GPU使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFAノードエクスポーターは、HPCクラスター内の低レイテンシーおよび高帯域幅通信に不可欠なEFAネットワークインターフェイスに関連するメトリクスを収集します。
ヘッドノードに、スクリプトは Prometheus 用の Slurm エクスポーター と Prometheus オープンソースソフトウェア
ライフサイクルスクリプトはすべてのエクスポーターパッケージを Docker コンテナとしてインストールするように設計されているため、Docker パッケージはヘッドノードとコンピューティングノードの両方にもインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリ の utils
エクスポーターパッケージでインストールされた HyperPod クラスターを正常にセットアップしたら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana のセットアップを完了します。