本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中 Slurm 版本的版本備註
本主題說明 AWS PCS 目前支援的每個 Slurm 版本的重要變更。建議您在升級叢集時,檢閱新舊版本之間的變更。
在 AWS PCS 中實作的變更
-
排程器稽核日誌現在透過
PCS_SCHEDULER_AUDIT_LOGS日誌類型單獨交付,透過獨立控制日誌交付來簡化故障診斷和稽核。如需詳細資訊,請參閱 AWS PCS 中的排程器稽核日誌。 -
預設會啟用快速排入佇列。因為節點問題 (例如容量不足錯誤) 而失敗的任務可以使用 以最高的排程優先順序重新排入佇列
sbatch --requeue=expedite。這是由SchedulerParameters=enable_expedited_requeue設定所控制。 -
requeue_delay參數可做為自訂叢集設定使用,預設值為 5 秒。先前,佇列延遲與憑證過期 (70 秒) 相關。管理員現在可以透過 獨立設定。SchedulerParameters=requeue_delay=<seconds> -
HealthCheckNodeState現在支援START_ONLY值,僅在節點啟動時執行運作狀態檢查程式 (slurmd 啟動)。 -
CommunicationParameters=disable_http預設為停用 Slurm 25.11 中引入的 HTTP 端點 (指標和運作狀態探查)。若要重新啟用這些端點,請設定CommunicationParameters=enable_http。如需詳細資訊,請參閱 AWS PCS 中的 Slurm 指標。
已知問題
-
即使
AccountingStorageEnforce=QOS未設定 , Slurm 25.11 仍會驗證AllowQOS和DenyQOS分割區設定。如果在 Slurm 會計資料庫中參考AllowQOS或DenyQOS不存在 QOS, 會因嚴重錯誤而slurmctld結束。在升級至或重新啟動 Slurm 25.11 之前,請確保分割區AllowQOS和DenyQOS設定中列出的所有 QOS 值都存在於會計資料庫中。 -
slurmd日誌可能會顯示錯誤訊息error: cannot create url_parser context for http_parser/libhttp_parser。這是已知的 Slurm 問題,即使CommunicationParameters=disable_http設定 也會發生。您可以安全地忽略錯誤,不會影響叢集操作。
如需 Slurm 25.11 的詳細資訊,請參閱下列出版物:
-
SchedMD 版本公告:https://https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
SchedMD 版本備註:https://https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
在 AWS PCS 中實作的變更
-
Slurm requeue_on_resume_failure SchedulerParameter 現在預設為啟用。
-
已移除「stderr」做為 LogTimeFormat 的選項,因為它已在 Slurm 25.05 中停用。
-
AWS PCS 支援多叢集堆疊組態:登入節點可以存取多個叢集。
如需 Slurm 25.05 的詳細資訊,請參閱下列出版物:
-
SchedMD 版本公告:https://https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
SchedMD 版本備註:https://https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
在 AWS PCS 中實作的變更
-
AWS PCS 支援 Slurm 會計。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計。
如需 Slurm 24.11 的詳細資訊,請參閱下列出版物:
在 AWS PCS 中實作的變更
-
新的 Slurm Step Manager 模組現在預設為在 AWS PCS 中啟用。本單元透過將步驟管理從中央控制器卸載至運算節點,大幅改善具有大量步驟用量的環境中的系統並行性,提供顯著的好處。為了支援此組態和更好的隔離
Prolog和Epilog程序執行,會啟用新的 prolog 旗標 (Contain、Alloc)。 -
啟用從控制器到運算節點的階層式通訊,以最佳化 Slurm 節點內通訊,進而改善可擴展性和效能。此外,路由組態現在使用分割區節點清單從控制器進行通訊,而不是外掛程式的預設路由演算法,以增強系統彈性。
-
新的雜湊外掛程式會
HashPlugin=hash/sha3取代先前的hash/k12 plugin。這現在預設為在 AWS PCS 叢集中啟用。 -
Slurm 控制器日誌現在包含對 的所有傳入遠端程序呼叫 (RPC) 的增強型稽核功能
slurmctld。日誌包含來源地址、已驗證的使用者,以及連線處理之前的 RPC 類型。
如需 Slurm 24.05 的詳細資訊,請參閱下列出版物:
您可以在 AWS PCS 中變更 Slurm 設定
-
SuspendTime預設為60。使用 AWS PCSscaleDownIdleTimeInSeconds組態參數進行設定。如需詳細資訊,請參閱 AWS PCS API 參考中ClusterSlurmConfiguration資料類型的scaleDownIdleTimeInSeconds參數。 -
MaxJobCount和MaxArraySize是根據您為叢集選擇的大小。如需詳細資訊,請參閱 PCSCreateClusterAPI 參考中 API 動作的size參數。 AWS -
SelectTypeParametersSlurm 設定預設為CR_CPU。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中CreateClusterAPI 動作和 SlurmCustomSetting 的slurmCustomSettings參數。 -
您可以在叢集層級設定
EpilogProlog和 。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中的CreateCluster和 SlurmCustomSetting。 -
您可以在運算節點群組層級設定
RealMemoryWeight和 。您可以在建立運算節點群組時,提供它做為 的值slurmCustomSettings。如需詳細資訊,請參閱 AWS PCS API 參考中的CreateComputeNodeGroup和 SlurmCustomSetting。