Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Instal paket eksportir metrik di klaster Anda HyperPod
Dalam skrip siklus hidup konfigurasi dasar yang disediakan SageMaker HyperPod tim juga mencakup instalasi berbagai paket eksportir metrik. Untuk mengaktifkan langkah instalasi, satu-satunya hal yang perlu Anda lakukan adalah mengatur parameter enable_observability=True
dalam config.py
Nama | Node target penyebaran skrip | Deskripsi eksportir |
Eksportir slurm untuk Prometheus |
Kepala (pengontrol) simpul |
Mengekspor metrik Akuntansi Slurm. |
Hitung simpul |
Mengekspor metrik dari node cluster dan. EFA Paket ini adalah garpu dari eksportir simpul Prometheus |
|
Hitung simpul |
NVIDIADCGMMetrik ekspor tentang kesehatan dan kinerja. NVIDIA GPUs |
Dengan enable_observability=True
dalam config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
Pada node komputasi, skrip menginstal eksportir NVIDIA Data Center GPU Management (DCGM) dan eksportir node Elastic Fabric Adapter (EFA). DCGMEksportir adalah eksportir Prometheus yang mengumpulkan metrik dari, memungkinkan pemantauan penggunaan, kinerja NVIDIAGPUs, dan kesehatan. GPU Eksportir EFA node, di sisi lain, mengumpulkan metrik yang terkait dengan antarmuka EFA jaringan, yang penting untuk komunikasi latensi rendah dan bandwidth tinggi dalam cluster. HPC
Pada node kepala, skrip menginstal eksportir Slurm untuk Prometheus dan perangkat lunak open-source Prometheus.
Perhatikan bahwa skrip siklus hidup dirancang untuk menginstal semua paket eksportir sebagai wadah docker, jadi paket Docker juga harus diinstal pada node head dan compute. Skrip untuk komponen ini disediakan dengan mudah di utils
Setelah berhasil menyiapkan HyperPod klaster yang diinstal dengan paket eksportir, lanjutkan ke topik berikutnya untuk menyelesaikan penyiapan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.