HyperPod クラスターのヘッドノードで Prometheus 設定を検証する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod クラスターのヘッドノードで Prometheus 設定を検証する

エクスポーターパッケージでインストールされた HyperPod クラスターを正常にセットアップしたら、 HyperPod クラスターのヘッドノードで Prometheus が適切にセットアップされているかどうかを確認します。

  1. クラスターのヘッドノードに接続します。ノードへのアクセス手順については、「」を参照してくださいクラスターノードにアクセスする SageMaker HyperPod

  2. 次のコマンドを実行して、ライフサイクルスクリプトによって作成された Prometheus 設定とサービスファイルがコントローラーノードで実行install_prometheus.shされていることを確認します。出力には、アクティブステータスが と表示されますactive (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Prometheus 設定ファイルを次のように検証します。出力は、次のようになります。3 つのエクスポーターが適切なコンピューティングノード IP アドレスで設定されている必要があります。

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Prometheus が Slurm、、DCGMおよび EFAメトリクスを適切にエクスポートしているかどうかをテストするには、ヘッドノード:9090のポートで Prometheus に対して次のcurlコマンドを実行します。

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    コントローラーノードから Prometheus リモート書き込み設定を使用してメトリクスを Amazon Managed Service for Prometheus Workspace にエクスポートすると、次のトピックに進み、メトリクスを表示する Amazon Managed Grafana ダッシュボードを設定できます。