Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS ParallelCluster proses
Bagian ini berlaku untuk cluster yang digunakan dengan Slurm. Saat digunakan dengan penjadwal ini, AWS ParallelCluster mengelola penyediaan dan penghapusan node komputasi dengan berinteraksi dengan penjadwal pekerjaan yang mendasarinya.
Untuk HPC cluster yang didasarkan pada AWS Batch, AWS ParallelCluster bergantung pada kemampuan yang disediakan oleh AWS Batch untuk manajemen node komputasi.
clustermgtd
Tugas-tugas berikut dilakukan oleh daemon manajemen cluster.
-
Pembersihan partisi tidak aktif
-
Pengelolaan Slurm reservasi dan node yang terkait dengan Blok Kapasitas (lihat bagian berikut)
-
Manajemen kapasitas statis: pastikan kapasitas statis selalu naik dan sehat
-
Sinkronkan penjadwal dengan AmazonEC2.
-
Pembersihan contoh yatim piatu
-
Mengembalikan status node scheduler pada EC2 penghentian Amazon yang terjadi di luar alur kerja penangguhan
-
Manajemen EC2 instans Amazon yang tidak sehat (gagal pemeriksaan EC2 kesehatan Amazon)
-
Manajemen acara pemeliharaan terjadwal
-
Manajemen node Scheduler yang tidak sehat (gagal pemeriksaan kesehatan Scheduler)
Pengelolaan Slurm reservasi dan node yang terkait dengan Blok Kapasitas
ParallelCluster mendukung Pemesanan Kapasitas Sesuai Permintaan (ODCR) dan Blok Kapasitas untuk Machine Learning (CB). Tidak sepertiODCR, CB dapat memiliki waktu mulai masa depan dan terikat waktu.
Clustermgtd mencari node yang tidak sehat dalam satu loop dan menghentikan EC2 instance Amazon yang sedang down, menggantinya dengan instance baru jika node statis.
ParallelCluster mengelola node statis yang terkait dengan Blok Kapasitas secara berbeda. AWS ParallelCluster membuat cluster bahkan jika CB belum aktif, dan instance diluncurkan secara otomatis setelah CB aktif.
Bagian Slurm node yang sesuai dengan sumber daya komputasi CBs yang terkait dengan yang belum aktif disimpan dalam pemeliharaan sampai waktu mulai CB tercapai. Slurm node akan tetap dalam status reservasi/pemeliharaan yang terkait dengan Slurm pengguna admin, yang berarti mereka dapat menerima pekerjaan, tetapi pekerjaan akan tetap tertunda sampai Slurm reservasi dihapus.
Clustermgtd akan secara otomatis membuat/menghapus Slurm reservasi, menempatkan node CB terkait dalam pemeliharaan berdasarkan status CB. Ketika CB akan aktif, Slurm reservasi akan dihapus, node akan mulai dan akan tersedia untuk pekerjaan yang tertunda atau untuk pengiriman pekerjaan baru.
Ketika waktu akhir CB tercapai, node akan dipindahkan kembali ke status reservasi/pemeliharaan. Terserah pengguna untuk mengirimkan ulang/meminta kembali pekerjaan ke antrian/sumber daya komputasi baru saat CB tidak lagi aktif dan instance dihentikan.
clusterstatusmgtd
Daemon manajemen status cluster mengelola pembaruan status armada komputasi. Setiap menit ia mengambil status armada yang disimpan dalam tabel DynamoDB dan mengelola setiap permintaan/. STOP START
computemgtd
Proses daemon (computemgtd
) manajemen komputasi berjalan pada setiap node komputasi cluster. Setiap lima (5) menit, daemon manajemen komputasi menegaskan bahwa node kepala dapat dijangkau dan sehat. Jika lima (5) menit berlalu di mana simpul kepala tidak dapat dicapai atau tidak sehat, simpul komputasi dimatikan.