Instal paket eksportir metrik di klaster Anda HyperPod - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Instal paket eksportir metrik di klaster Anda HyperPod

Dalam skrip siklus hidup konfigurasi dasar yang disediakan SageMaker HyperPod tim juga mencakup instalasi berbagai paket eksportir metrik. Untuk mengaktifkan langkah instalasi, satu-satunya hal yang perlu Anda lakukan adalah mengatur parameter enable_observability=True dalam config.pyfile. Skrip siklus hidup dirancang untuk mem-bootstrap klaster Anda dengan paket eksportir metrik sumber terbuka berikut.

Nama Node target penyebaran skrip Deskripsi eksportir
Eksportir slurm untuk Prometheus Kepala (pengontrol) simpul

Mengekspor metrik Akuntansi Slurm.

Adaptor Kain Elastis (EFA) pengekspor simpul

Hitung simpul

Mengekspor metrik dari node cluster dan. EFA Paket ini adalah garpu dari eksportir simpul Prometheus.

NVIDIAGPUManajemen Pusat Data (DCGM) eksportir

Hitung simpul

NVIDIADCGMMetrik ekspor tentang kesehatan dan kinerja. NVIDIA GPUs

Dengan enable_observability=True dalam config.pyfile, langkah instalasi berikut diaktifkan dalam lifecycle_script.pyskrip.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Pada node komputasi, skrip menginstal eksportir NVIDIA Data Center GPU Management (DCGM) dan eksportir node Elastic Fabric Adapter (EFA). DCGMEksportir adalah eksportir Prometheus yang mengumpulkan metrik dari, memungkinkan pemantauan penggunaan, kinerja NVIDIAGPUs, dan kesehatan. GPU Eksportir EFA node, di sisi lain, mengumpulkan metrik yang terkait dengan antarmuka EFA jaringan, yang penting untuk komunikasi latensi rendah dan bandwidth tinggi dalam cluster. HPC

Pada node kepala, skrip menginstal eksportir Slurm untuk Prometheus dan perangkat lunak open-source Prometheus. Eksportir Slurm menyediakan Prometheus dengan metrik yang terkait dengan pekerjaan Slurm, partisi, dan status node.

Perhatikan bahwa skrip siklus hidup dirancang untuk menginstal semua paket eksportir sebagai wadah docker, jadi paket Docker juga harus diinstal pada node head dan compute. Skrip untuk komponen ini disediakan dengan mudah di utilsfolder repositori Pelatihan GitHub Terdistribusi Awsome.

Setelah berhasil menyiapkan HyperPod klaster yang diinstal dengan paket eksportir, lanjutkan ke topik berikutnya untuk menyelesaikan penyiapan Amazon Managed Service untuk Prometheus dan Amazon Managed Grafana.