Validasi pengaturan Prometheus pada node kepala cluster HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Validasi pengaturan Prometheus pada node kepala cluster HyperPod

Setelah Anda berhasil mengatur HyperPod cluster Anda diinstal dengan paket eksportir, periksa apakah Prometheus diatur dengan benar di node kepala cluster Anda. HyperPod

  1. Connect ke node kepala cluster Anda. Untuk petunjuk tentang mengakses node, lihatAkses node SageMaker HyperPod cluster Anda.

  2. Jalankan perintah berikut untuk memverifikasi konfigurasi Prometheus dan file layanan yang dibuat oleh skrip siklus hidup install_prometheus.sh berjalan pada node pengontrol. Output harus menunjukkan status Aktif sebagaiactive (running).

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Validasi file konfigurasi Prometheus sebagai berikut. Outputnya harus mirip dengan berikut ini, dengan tiga eksportir dikonfigurasi dengan alamat IP node komputasi yang tepat.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Untuk menguji apakah Prometheus mengekspor SlurmDCGM,, EFA dan metrik dengan benar, jalankan perintah curl berikut untuk Prometheus pada port pada node kepala. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Dengan metrik yang diekspor ke Amazon Managed Service untuk Prometheus Workspace melalui konfigurasi penulisan jarak jauh Prometheus dari node pengontrol, Anda dapat melanjutkan ke topik berikutnya untuk menyiapkan dasbor Grafana Terkelola Amazon untuk menampilkan metrik.