本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Slurm 使用 計費 AWS ParallelCluster
從 3.3.0 版開始, AWS ParallelCluster 支援 Slurm 使用叢集組態參數 SlurmSettings / 資料庫 進行會計。
從 3.10.0 版開始, AWS ParallelCluster 支援 Slurm 使用具有叢集組態參數 SlurmSettings / 的外部 Slurmdbd 進行計費ExternalSlurmdbd。如果多個叢集共用相同的資料庫,建議使用外部 Slurmdbd。
使用 Slurm 會計,您可以整合外部會計資料庫來執行下列動作:
-
管理叢集使用者或使用者和其他實體的群組。透過此功能,您可以使用 Slurm的更進階功能,例如資源限制強制執行、Fairshare 和 QOSs。
-
收集並儲存任務資料,例如執行任務的使用者、任務的持續時間及其使用的資源。您可以使用
sacct
公用程式檢視儲存的資料。
注意
AWS ParallelCluster 支援 Slurm 的 會計 Slurm 支援我的SQL資料庫伺服器
使用 Slurm 使用外部 計費 Slurmdbd v3.10.0 及更新 AWS ParallelCluster 版本
設定 之前 Slurm 會計,您必須具有現有的外部 Slurmdbd 資料庫伺服器,可連線至現有的外部資料庫伺服器。
若要設定此設定,請定義以下內容:
-
外部 的地址 Slurmdbd ExternalSlurmdbd / 主機 中的伺服器。伺服器必須存在,並且可以從主機節點存取。
-
要與外部 通訊的 munge 金鑰 Slurmdbd 中的伺服器MungeKeySecretArn。
若要逐步完成教學課程,請參閱 使用外部Slurmdbd帳戶建立叢集。
注意
您有責任管理 Slurm 資料庫會計實體。
AWS ParallelCluster 外部 的架構 SlurmDB 支援功能可啟用多個共享相同的叢集 SlurmDB 和相同的資料庫。
警告
AWS ParallelCluster 與外部之間的流量 SlurmDB 未加密。建議執行叢集和外部 SlurmDB 在信任的網路中。
使用 Slurm 使用主機節點進行會計 Slurmdbd v3.3.0 及更新 AWS ParallelCluster 版本
設定 之前 Slurm 會計,您必須擁有使用mysql
通訊協定的現有外部資料庫伺服器和資料庫。
若要設定 Slurm 使用 會計 AWS ParallelCluster,您必須定義以下內容:
-
Database / Uri 中URI外部資料庫伺服器的 。 伺服器必須存在,並且可以從主機節點存取。
-
存取資料庫 / PasswordSecretArn和資料庫 / 中定義的外部資料庫的憑證UserName。 AWS ParallelCluster 會使用此資訊在 設定會計 Slurm 層級和主機節點上的
slurmdbd
服務。slurmdbd
是管理叢集與資料庫伺服器之間通訊的常駐程式。
若要逐步完成教學課程,請參閱 使用 建立叢集 Slurm 會計。
注意
AWS ParallelCluster 會執行 的基本引導 Slurm 會計資料庫,方法是將預設叢集使用者設定為 中的資料庫管理員 Slurm database. AWS ParallelCluster doesn 不會將任何其他使用者新增至會計資料庫。客戶負責管理 中的會計實體 Slurm 資料庫。
AWS ParallelCluster 設定 slurmdbd
slurmdbd
組態檔案StorageLoc
警告
-
我們不建議設定多個叢集,以一次使用相同的資料庫。這樣做可能會導致效能問題,甚至是資料庫鎖定情況。
-
If Slurm 在叢集的主機節點上啟用 會計,我們建議您使用具有強大 CPU、更多記憶體和更高網路頻寬的執行個體類型。Slurm 會計可以在叢集的主機節點上新增負載。
在 的目前架構中 AWS ParallelCluster Slurm 會計功能,每個叢集都有自己的slurmdbd
常駐程式執行個體,如下圖範例組態所示。
如果您要新增自訂 Slurm 叢集環境的多叢集或聯合功能,所有叢集都必須參考相同的slurmdbd
執行個體。對於此替代方案,我們建議您啟用 AWS ParallelCluster Slurm 在一個叢集上進行計費,並手動設定其他叢集,以連線至slurmdbd
在第一個叢集上託管的 。
如果您使用的 AWS ParallelCluster 是 3.3.0 版之前的版本,請參閱要實作的替代方法 Slurm 會計,如本HPC部落格文章
Slurm 會計考量
不同 上的資料庫和叢集 VPCs
若要啟用 Slurm 會計,資料庫伺服器需要作為slurmdbd
常駐程式執行的讀取和寫入操作的後端。建立或更新叢集以啟用之前 Slurm 會計,主機節點必須能夠連線到資料庫伺服器。
如果您需要將資料庫伺服器部署在叢集使用的 VPC以外的 上,請考慮下列事項:
設定 slurmdbd
與資料庫伺服器之間的TLS加密
使用預設 Slurm 如果伺服器支援 TLS encryption. AWS database 服務,例如 Amazon,RDS並預設 Amazon Aurora 支援TLS加密,則 AWS ParallelCluster 提供 的計費組態會slurmdbd
建立與資料庫伺服器的TLS加密連線。
您可以在資料庫伺服器上設定 require_secure_transport
參數,在伺服器端要求安全連線。這是在提供的 CloudFormation 範本中設定的。
遵循安全最佳實務,建議您也在slurmdbd
用戶端上啟用伺服器身分驗證。若要這麼做,請在 StorageParametersslurmdbd.conf
。將伺服器 CA 憑證上傳到叢集的主機節點。接下來,將 StorageParameters
中的 SSL_CAslurmdbd.conf
設定為主機節點上伺服器 CA 憑證的路徑。這樣做會在slurmdbd
側邊啟用伺服器身分驗證。進行這些變更後,重新啟動 slurmdbd
服務,以在啟用身分驗證的情況下重新建立與資料庫伺服器的連線。
更新資料庫憑證
若要更新資料庫 / UserName或 的值PasswordSecretArn,您必須先停止運算機群。假設儲存在秘密中的 AWS Secrets Manager 秘密值已變更,且ARN不會變更。在這種情況下,叢集不會自動將資料庫密碼更新為新值。若要更新叢集的新秘密值,請從主機節點執行下列命令。
$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告
為了避免遺失會計資料,建議您只在運算機群停止時變更資料庫密碼。
資料庫監控
建議您啟用 AWS 資料庫服務的監控功能。如需詳細資訊,請參閱 Amazon RDS監控或 Amazon Aurora 監控文件。