AWS ParallelCluster 程序 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS ParallelCluster 程序

本節適用於使用 部署的叢集 Slurm。 與此排程器搭配使用時,透過與基礎任務排程器互動來 AWS ParallelCluster 管理運算節點佈建和移除。

對於以 為基礎的HPC叢集 AWS Batch, AWS ParallelCluster 依賴 AWS Batch 為運算節點管理提供的功能。

clustermgtd

下列任務由叢集管理常駐程式執行。

  • 非作用中分割區清除

  • 的管理 Slurm 與容量區塊相關聯的保留和節點 (請參閱下一節)

  • 靜態容量管理:確保靜態容量始終保持正常運作

  • 將排程器與 Amazon EC2 同步。

  • 孤立執行個體清除

  • 在暫停工作流程之外發生的 Amazon EC2終止時還原排程器節點狀態

  • 運作狀態不佳的 Amazon EC2執行個體管理 (Amazon EC2運作狀態檢查失敗)

  • 排程維護事件管理

  • 運作狀態不佳的排程器節點管理 (排程器運作狀態檢查失敗)

的管理 Slurm 與容量區塊相關聯的保留和節點

ParallelCluster 支援Machine Learning (CBODCR) 的隨需容量預留 () 和容量區塊。與 不同ODCR,CB 可以有未來的開始時間,並且有時限。

Clustermgtd 會搜尋迴圈中運作狀態不佳的節點,並終止任何停機的 Amazon EC2執行個體,如果這些執行個體是靜態節點,則會將其取代為新的執行個體。

ParallelCluster 以不同的方式管理與容量區塊相關聯的靜態節點。即使 CB 尚未啟用, 也會 AWS ParallelCluster 建立叢集,且執行個體會在 CB 啟用時自動啟動。

所以此 Slurm 與尚未啟用CBs的 相關聯的運算資源對應的節點會保留在維護中,直到達到 CB 開始時間為止。Slurm 節點將保持與 相關聯的保留/維護狀態 Slurm 管理員使用者,這表示他們可以接受任務,但任務會保持待定狀態,直到 Slurm 已移除 保留。

Clustermgtd 會自動建立/刪除 Slurm 保留,根據 CB 狀態將相關的 CB 節點置於維護中。當 CB 處於作用中狀態時,Slurm 保留將被移除,節點將開始並可用於待定任務或提交新任務。

達到 CB 結束時間時,節點將移回保留/維護狀態。當 CB 不再作用中且執行個體終止時,最多只能由使用者將任務重新提交/重新佇列至新的佇列/運算資源。

clusterstatusmgtd

叢集狀態管理常駐程式會管理運算機群狀態更新。每分鐘都會擷取存放在 DynamoDB 資料表中的機群狀態,並管理任何 STOP/START 請求。

computemgtd

在每個叢集運算節點上執行的運算管理常駐程式 (computemgtd) 程序。每五 (5) 分鐘,運算管理常駐程式會確認可以達到主機節點且運作狀態良好。如果經過五 (5) 分鐘,且無法達到或狀態不佳,則會關閉運算節點。