clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster proses

Bagian ini berlaku untuk cluster yang digunakan dengan. Slurm Saat digunakan dengan penjadwal ini, AWS ParallelCluster berinteraksi dengan penjadwal pekerjaan yang mendasarinya untuk mengelola penyediaan dan penghapusan node komputasi.

Untuk cluster HPC yang didasarkan pada AWS Batch, AWS ParallelCluster bergantung pada kemampuan yang disediakan oleh AWS Batch untuk mengelola node komputasi.

`clustermgtd`

Daemon manajemen cluster (clustermgtd) melakukan tugas-tugas ini:

Bersihkan partisi yang tidak aktif
Mengelola Slurm reservasi dan node yang terkait dengan Blok Kapasitas (lihat bagian berikut)
Kelola kapasitas statis untuk memastikannya selalu aktif dan sehat
Sinkronkan penjadwal dengan Amazon EC2.
Bersihkan contoh yatim piatu
Mengembalikan status node scheduler pada penghentian Amazon EC2 yang terjadi di luar alur kerja penangguhan
Kelola instans Amazon EC2 yang tidak sehat (yang gagal dalam pemeriksaan kesehatan Amazon EC2)
Kelola acara pemeliharaan terjadwal
Kelola node penjadwal yang tidak sehat (yang gagal dalam pemeriksaan kesehatan penjadwal)

Manajemen Slurm reservasi dan node yang terkait dengan Blok Kapasitas

ParallelCluster mendukung Pemesanan Kapasitas Sesuai Permintaan (ODCR) dan Blok Kapasitas untuk Machine Learning (CB). Tidak seperti ODCR, CB dapat memiliki waktu mulai masa depan dan terikat waktu.

clustermgtdmencari node yang tidak sehat dalam satu loop, menghentikan instans Amazon EC2 yang sedang down, dan menggantinya dengan instance baru jika node statis.

AWS ParallelCluster mengelola node statis yang terkait dengan Blok Kapasitas secara berbeda— itu membuat cluster bahkan jika CB belum aktif, dan secara otomatis meluncurkan instance setelah CB aktif.

SlurmNode yang sesuai dengan sumber daya komputasi CBs yang terkait dengan yang belum aktif disimpan dalam status pemeliharaan sampai waktu mulai CB tercapai. SlurmNode ini tetap dalam reservation/maintenance status yang terkait dengan pengguna Slurm admin, yang berarti mereka dapat menerima pekerjaan, tetapi pekerjaan tetap tertunda hingga Slurm reservasi dihapus.

clustermgtdsecara otomatis membuat atau menghapus Slurm reservasi— itu menempatkan node CB terkait dalam status pemeliharaan berdasarkan status CB. Ketika CB menjadi aktif, Slurm reservasi dihapus, node mulai dan menjadi tersedia untuk pekerjaan yang tertunda atau untuk pengiriman pekerjaan baru.

Ketika waktu akhir CB tercapai, node dipindahkan kembali ke reservation/maintenance keadaan. Terserah pengguna untuk resubmit/requeue pekerjaan ke queue/compute sumber daya baru ketika CB tidak lagi aktif dan instance dihentikan.

`clusterstatusmgtd`

Daemon manajemen status klaster (clusterstatusmgtd) mengelola pembaruan status armada komputasi. Setiap menit ia mengambil status armada yang disimpan dalam tabel DynamoDB dan mengelola permintaan apa pun. STOP/START

`computemgtd`

Proses daemon (computemgtd) manajemen komputasi berjalan pada masing-masing node komputasi cluster. Setiap lima (5) menit, daemon manajemen komputasi menegaskan bahwa node kepala dapat dijangkau dan sehat. Jika lima (5) menit berlalu di mana simpul kepala tidak dapat dicapai atau tidak sehat, simpul komputasi dimatikan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Bagaimana cara AWS ParallelCluster kerja

AWS layanan yang digunakan oleh AWS ParallelCluster