

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS PCS 中 Slurm 版本的版本備註
<a name="slurm-versions_release-notes"></a>

本主題說明 AWS PCS 目前支援的每個 Slurm 版本的重要變更。建議您在升級叢集時，檢閱新舊版本之間的變更。

## Slurm 25.11
<a name="slurm-versions_release-notes_25.11"></a>

**在 AWS PCS 中實作的變更**
+ 排程器稽核日誌現在透過`PCS_SCHEDULER_AUDIT_LOGS`日誌類型單獨交付，透過獨立控制日誌交付來簡化故障診斷和稽核。如需詳細資訊，請參閱 [AWS PCS 中的排程器稽核日誌](https://docs.aws.amazon.com/pcs/latest/userguide/monitoring_scheduler-audit-logs.html)。
+ 預設會啟用快速排入佇列。因為節點問題 （例如容量不足錯誤） 而失敗的任務可以使用 以最高的排程優先順序重新排入佇列`sbatch --requeue=expedite`。這是由 `SchedulerParameters=enable_expedited_requeue` 設定所控制。
+ `requeue_delay` 參數可做為自訂叢集設定使用，預設值為 5 秒。先前，佇列延遲與憑證過期 (70 秒） 相關。管理員現在可以透過 獨立設定。 `SchedulerParameters=requeue_delay=<seconds>`
+ `HealthCheckNodeState` 現在支援 `START_ONLY`值，僅在節點啟動時執行運作狀態檢查程式 (slurmd 啟動）。
+ `CommunicationParameters=disable_http` 預設為停用 Slurm 25.11 中引入的 HTTP 端點 （指標和運作狀態探查）。若要重新啟用這些端點，請設定 `CommunicationParameters=enable_http`。如需詳細資訊，請參閱 [AWS PCS 中的 Slurm 指標](https://docs.aws.amazon.com/pcs/latest/userguide/slurm-metrics.html)。

**已知問題**
+ 即使`AccountingStorageEnforce=QOS`未設定 ， Slurm 25.11 仍會驗證 `AllowQOS`和`DenyQOS`分割區設定。如果在 Slurm 會計資料庫中參考`AllowQOS`或`DenyQOS`不存在 QOS， 會因嚴重錯誤而`slurmctld`結束。在升級至或重新啟動 Slurm 25.11 之前，請確保分割區`AllowQOS`和`DenyQOS`設定中列出的所有 QOS 值都存在於會計資料庫中。
+ `slurmd` 日誌可能會顯示錯誤訊息 `error: cannot create url_parser context for http_parser/libhttp_parser`。這是已知的 Slurm 問題，即使`CommunicationParameters=disable_http`設定 也會發生。您可以安全地忽略錯誤，不會影響叢集操作。

如需 Slurm 25.11 的詳細資訊，請參閱下列出版物：
+ SchedMD 版本公告：https：//[https://www.schedmd.com/slurm-version-25-11-0-is-now-available/](https://www.schedmd.com/slurm-version-25-11-0-is-now-available/)
+ SchedMD 版本備註：https：//[https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE\_NOTES.md](https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md)

## Slurm 25.05
<a name="slurm-versions_release-notes_25.05"></a>

**在 AWS PCS 中實作的變更**
+ Slurm requeue\_on\_resume\_failure SchedulerParameter 現在預設為啟用。
+ 已移除「stderr」做為 LogTimeFormat 的選項，因為它已在 Slurm 25.05 中停用。
+ AWS PCS 支援多叢集堆疊組態：登入節點可以存取多個叢集。

如需 Slurm 25.05 的詳細資訊，請參閱下列出版物：
+ SchedMD 版本公告：https：//[https://www.schedmd.com/slurm-version-25-05-0-is-now-available/](https://www.schedmd.com/slurm-version-25-05-0-is-now-available/)
+ SchedMD 版本備註：https：//[https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE\_NOTES.md](https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md)

## Slurm 24.11
<a name="slurm-versions_release-notes_24.11"></a>

**在 AWS PCS 中實作的變更**
+ AWS PCS 支援 Slurm 會計。如需詳細資訊，請參閱[AWS PCS 中的 Slurm 會計](slurm-accounting.md)。

如需 Slurm 24.11 的詳細資訊，請參閱下列出版物：
+ [SchedMD 版本公告](https://www.schedmd.com/slurm-version-24-11-0-is-now-available/)
+ [SchedMD 版本備註](https://github.com/SchedMD/slurm/blob/slurm-24-11-0-1/RELEASE_NOTES)

## Slurm 24.05
<a name="slurm-versions_release-notes_24.05"></a>

**在 AWS PCS 中實作的變更**
+ 新的 Slurm Step Manager 模組現在預設為在 AWS PCS 中啟用。本單元透過將步驟管理從中央控制器卸載至運算節點，大幅改善具有大量步驟用量的環境中的系統並行性，提供顯著的好處。為了支援此組態和更好的隔離`Prolog`和`Epilog`程序執行，會啟用新的 prolog 旗標 (`Contain`、`Alloc`)。
+ 啟用從控制器到運算節點的階層式通訊，以最佳化 Slurm 節點內通訊，進而改善可擴展性和效能。此外，路由組態現在使用分割區節點清單從控制器進行通訊，而不是外掛程式的預設路由演算法，以增強系統彈性。
+ 新的雜湊外掛程式會`HashPlugin=hash/sha3`取代先前的 `hash/k12 plugin`。這現在預設為在 AWS PCS 叢集中啟用。
+ Slurm 控制器日誌現在包含對 的所有傳入遠端程序呼叫 (RPC) 的增強型稽核功能`slurmctld`。日誌包含來源地址、已驗證的使用者，以及連線處理之前的 RPC 類型。

如需 Slurm 24.05 的詳細資訊，請參閱下列出版物：
+ [SchedMD 版本公告](https://www.schedmd.com/slurm-version-24-05-0-is-now-available/)
+ [SchedMD 版本備註](https://github.com/SchedMD/slurm/blob/slurm-24-05-0-1/RELEASE_NOTES)

## Slurm 23.11
<a name="slurm-versions_release-notes_23.11"></a>

**您可以在 AWS PCS 中變更 Slurm 設定**
+  `SuspendTime` 預設為 `60`。使用 AWS PCS `scaleDownIdleTimeInSeconds`組態參數進行設定。如需詳細資訊，請參閱 *AWS PCS API 參考*中 `ClusterSlurmConfiguration` 資料類型的 [https://docs.aws.amazon.com//pcs/latest/APIReference/API_ClusterSlurmConfiguration.html#PCS-Type-ClusterSlurmConfiguration-scaleDownIdleTimeInSeconds](https://docs.aws.amazon.com//pcs/latest/APIReference/API_ClusterSlurmConfiguration.html#PCS-Type-ClusterSlurmConfiguration-scaleDownIdleTimeInSeconds) 參數。
+  `MaxJobCount` 和 `MaxArraySize`是根據您為叢集選擇的大小。如需詳細資訊，請參閱 PCS `CreateCluster` API 參考中 API 動作的 [https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateCluster.html#PCS-CreateCluster-request-size](https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateCluster.html#PCS-CreateCluster-request-size) 參數。 *AWS *
+  `SelectTypeParameters` Slurm 設定預設為 `CR_CPU`。您可以提供它做為值`slurmCustomSettings`，讓 在建立叢集時設定它。如需詳細資訊，請參閱 *AWS PCS API 參考*中 `CreateCluster` API 動作和 [SlurmCustomSetting](https://docs.aws.amazon.com//pcs/latest/APIReference/API_SlurmCustomSetting.html) 的 [https://docs.aws.amazon.com//pcs/latest/APIReference/API_ClusterSlurmConfigurationRequest.html#PCS-Type-ClusterSlurmConfigurationRequest-slurmCustomSettings](https://docs.aws.amazon.com//pcs/latest/APIReference/API_ClusterSlurmConfigurationRequest.html#PCS-Type-ClusterSlurmConfigurationRequest-slurmCustomSettings) 參數。
+ 您可以在叢集層級設定 `Epilog` `Prolog`和 。您可以提供它做為值`slurmCustomSettings`，讓 在建立叢集時設定它。如需詳細資訊，請參閱 *AWS PCS API 參考*中的 [https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateCluster.html)和 [SlurmCustomSetting](https://docs.aws.amazon.com//pcs/latest/APIReference/API_SlurmCustomSetting.html)。
+ 您可以在運算節點群組層級設定 `RealMemory` `Weight`和 。您可以在建立運算節點群組時，提供它做為 的值`slurmCustomSettings`。如需詳細資訊，請參閱 *AWS PCS API 參考*中的 [https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateComputeNodeGroup.html](https://docs.aws.amazon.com//pcs/latest/APIReference/API_CreateComputeNodeGroup.html)和 [SlurmCustomSetting](https://docs.aws.amazon.com//pcs/latest/APIReference/API_SlurmCustomSetting.html)。