Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Validasi pengaturan Prometheus pada node kepala cluster HyperPod

Mode fokus
Validasi pengaturan Prometheus pada node kepala cluster HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Setelah Anda berhasil mengatur HyperPod cluster Anda diinstal dengan paket eksportir, periksa apakah Prometheus diatur dengan benar di node kepala cluster Anda. HyperPod

  1. Connect ke node kepala cluster Anda. Untuk petunjuk tentang mengakses node, lihatAkses node SageMaker HyperPod cluster Anda.

  2. Jalankan perintah berikut untuk memverifikasi konfigurasi Prometheus dan file layanan yang dibuat oleh skrip siklus hidup install_prometheus.sh berjalan pada node pengontrol. Output harus menunjukkan status Aktif sebagaiactive (running).

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Validasi file konfigurasi Prometheus sebagai berikut. Outputnya harus mirip dengan berikut ini, dengan tiga eksportir dikonfigurasi dengan alamat IP node komputasi yang tepat.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Untuk menguji apakah Prometheus mengekspor metrik Slurm, DCGM, dan EFA dengan benar, jalankan perintah berikut untuk Prometheus pada port pada node kepala. curl :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Dengan metrik yang diekspor ke Amazon Managed Service untuk Prometheus Workspace melalui konfigurasi penulisan jarak jauh Prometheus dari node pengontrol, Anda dapat melanjutkan ke topik berikutnya untuk menyiapkan dasbor Grafana Terkelola Amazon untuk menampilkan metrik.

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.