View a markdown version of this page

AWS PCS 中 Slurm 版本的版本備註 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS PCS 中 Slurm 版本的版本備註

本主題說明 AWS PCS 目前支援的每個 Slurm 版本的重要變更。建議您在升級叢集時,檢閱新舊版本之間的變更。

在 AWS PCS 中實作的變更
  • 排程器稽核日誌現在透過PCS_SCHEDULER_AUDIT_LOGS日誌類型單獨交付,透過獨立控制日誌交付來簡化故障診斷和稽核。如需詳細資訊,請參閱 AWS PCS 中的排程器稽核日誌

  • 預設會啟用快速排入佇列。因為節點問題 (例如容量不足錯誤) 而失敗的任務可以使用 以最高的排程優先順序重新排入佇列sbatch --requeue=expedite。這是由 SchedulerParameters=enable_expedited_requeue 設定所控制。

  • requeue_delay 參數可做為自訂叢集設定使用,預設值為 5 秒。先前,佇列延遲與憑證過期 (70 秒) 相關。管理員現在可以透過 獨立設定。 SchedulerParameters=requeue_delay=<seconds>

  • HealthCheckNodeState 現在支援 START_ONLY值,僅在節點啟動時執行運作狀態檢查程式 (slurmd 啟動)。

  • CommunicationParameters=disable_http 預設為停用 Slurm 25.11 中引入的 HTTP 端點 (指標和運作狀態探查)。若要重新啟用這些端點,請設定 CommunicationParameters=enable_http。如需詳細資訊,請參閱 AWS PCS 中的 Slurm 指標

已知問題
  • 即使AccountingStorageEnforce=QOS未設定 , Slurm 25.11 仍會驗證 AllowQOSDenyQOS分割區設定。如果在 Slurm 會計資料庫中參考AllowQOSDenyQOS不存在 QOS, 會因嚴重錯誤而slurmctld結束。在升級至或重新啟動 Slurm 25.11 之前,請確保分割區AllowQOSDenyQOS設定中列出的所有 QOS 值都存在於會計資料庫中。

  • slurmd 日誌可能會顯示錯誤訊息 error: cannot create url_parser context for http_parser/libhttp_parser。這是已知的 Slurm 問題,即使CommunicationParameters=disable_http設定 也會發生。您可以安全地忽略錯誤,不會影響叢集操作。

如需 Slurm 25.11 的詳細資訊,請參閱下列出版物:

在 AWS PCS 中實作的變更
  • Slurm requeue_on_resume_failure SchedulerParameter 現在預設為啟用。

  • 已移除「stderr」做為 LogTimeFormat 的選項,因為它已在 Slurm 25.05 中停用。

  • AWS PCS 支援多叢集堆疊組態:登入節點可以存取多個叢集。

如需 Slurm 25.05 的詳細資訊,請參閱下列出版物:

在 AWS PCS 中實作的變更

如需 Slurm 24.11 的詳細資訊,請參閱下列出版物:

在 AWS PCS 中實作的變更
  • 新的 Slurm Step Manager 模組現在預設為在 AWS PCS 中啟用。本單元透過將步驟管理從中央控制器卸載至運算節點,大幅改善具有大量步驟用量的環境中的系統並行性,提供顯著的好處。為了支援此組態和更好的隔離PrologEpilog程序執行,會啟用新的 prolog 旗標 (ContainAlloc)。

  • 啟用從控制器到運算節點的階層式通訊,以最佳化 Slurm 節點內通訊,進而改善可擴展性和效能。此外,路由組態現在使用分割區節點清單從控制器進行通訊,而不是外掛程式的預設路由演算法,以增強系統彈性。

  • 新的雜湊外掛程式會HashPlugin=hash/sha3取代先前的 hash/k12 plugin。這現在預設為在 AWS PCS 叢集中啟用。

  • Slurm 控制器日誌現在包含對 的所有傳入遠端程序呼叫 (RPC) 的增強型稽核功能slurmctld。日誌包含來源地址、已驗證的使用者,以及連線處理之前的 RPC 類型。

如需 Slurm 24.05 的詳細資訊,請參閱下列出版物:

您可以在 AWS PCS 中變更 Slurm 設定
  • SuspendTime 預設為 60。使用 AWS PCS scaleDownIdleTimeInSeconds組態參數進行設定。如需詳細資訊,請參閱 AWS PCS API 參考ClusterSlurmConfiguration 資料類型的 scaleDownIdleTimeInSeconds 參數。

  • MaxJobCountMaxArraySize是根據您為叢集選擇的大小。如需詳細資訊,請參閱 PCS CreateCluster API 參考中 API 動作的 size 參數。 AWS

  • SelectTypeParameters Slurm 設定預設為 CR_CPU。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考CreateCluster API 動作和 SlurmCustomSettingslurmCustomSettings 參數。

  • 您可以在叢集層級設定 Epilog Prolog和 。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中的 CreateClusterSlurmCustomSetting

  • 您可以在運算節點群組層級設定 RealMemory Weight和 。您可以在建立運算節點群組時,提供它做為 的值slurmCustomSettings。如需詳細資訊,請參閱 AWS PCS API 參考中的 CreateComputeNodeGroupSlurmCustomSetting