本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Slurm 使用 計費 AWS ParallelCluster
從 3.3.0 版開始, AWS ParallelCluster 支援 Slurm 使用叢集組態參數 SlurmSettings/資料庫進行會計。
從 3.10.0 版開始, AWS ParallelCluster 支援 Slurm 使用外部 Slurmdbd 與叢集組態參數 SlurmSettings / ExternalSlurmdbd 進行會計。如果多個叢集共用相同的資料庫,建議使用外部 Slurmdbd。
使用 Slurm 會計,您可以整合外部會計資料庫來執行下列動作:
-
管理叢集使用者或使用者群組和其他實體。透過此功能,您可以使用 Slurm更進階的功能,例如資源限制強制執行、公平共用和 QOSs。
-
收集並儲存任務資料,例如執行任務的使用者、任務的持續時間,以及其使用的資源。您可以使用
sacct
公用程式檢視儲存的資料。
注意
AWS ParallelCluster 支援 Slurm 的 會計 Slurm 支援的 MySQL 資料庫伺服器
使用 Slurm 使用外部 計費 Slurmdbd 在 AWS ParallelCluster v3.10.0 和更新版本中
設定 之前 Slurm 會計,您必須擁有現有的外部 Slurmdbd 資料庫伺服器,可連線至現有的外部資料庫伺服器。
若要設定此項目,請定義下列項目:
-
外部 的地址 Slurmdbd ExternalSlurmdbd / Host 中的 伺服器。伺服器必須存在,且可從主機節點連線。
-
要與外部通訊的 munge 金鑰 Slurmdbd MungeKeySecretArn 中的 伺服器。
若要逐步完成教學課程,請參閱 使用外部Slurmdbd帳戶建立叢集。
注意
您有責任管理 Slurm 資料庫會計實體。
AWS ParallelCluster 外部 的架構 SlurmDB 支援功能可讓多個叢集共用相同的 SlurmDB 和相同的資料庫。
警告
AWS ParallelCluster 與外部之間的流量 SlurmDB 未加密。建議執行叢集和外部 SlurmDB 在信任的網路中。
使用 Slurm 使用頭部節點進行會計 Slurmdbd 在 AWS ParallelCluster v3.3.0 和更新版本中
設定 之前 Slurm 會計,您必須擁有使用mysql
通訊協定的現有外部資料庫伺服器和資料庫。
設定 Slurm 使用 會計 AWS ParallelCluster,您必須定義下列項目:
若要逐步完成教學課程,請參閱 使用 建立叢集 Slurm 會計。
注意
AWS ParallelCluster 會執行 的基本引導 Slurm 會計資料庫,方法是將預設叢集使用者設定為 中的資料庫管理員 Slurm database. AWS ParallelCluster doesn 不會將任何其他使用者新增至會計資料庫。客戶負責管理 中的會計實體 Slurm 資料庫。
AWS ParallelCluster 設定 slurmdbd
slurmdbd
組態檔案StorageLoc
警告
-
我們不建議設定多個叢集來一次使用相同的資料庫。這樣做可能會導致效能問題,甚至是資料庫死鎖情況。
-
If Slurm 在叢集的主機節點上啟用 會計,我們建議您使用具有強大 CPU、更多記憶體和更高網路頻寬的執行個體類型。Slurm 會計可以在叢集的主機節點上新增負載。
在 的目前架構中 AWS ParallelCluster Slurm 會計功能,每個叢集都有自己的slurmdbd
協助程式執行個體,如下圖範例組態所示。
如果您要新增自訂 Slurm 叢集環境的多叢集或聯合功能,所有叢集都必須參考相同的slurmdbd
執行個體。對於此替代方案,我們建議您啟用 AWS ParallelCluster Slurm 在一個叢集上進行會計,並手動設定其他叢集,以連線至slurmdbd
在第一個叢集上託管的 。
如果您使用的 AWS ParallelCluster 是 3.3.0 版之前的版本,請參閱要實作的替代方法 Slurm 會計,如本 HPC 部落格文章
Slurm 會計考量
不同 VPCs 上的資料庫和叢集
啟用 Slurm 會計,需要資料庫伺服器做為slurmdbd
協助程式執行的讀取和寫入操作的後端。在建立或更新叢集之前,啟用 Slurm 會計,主機節點必須能夠連線到資料庫伺服器。
如果您需要在叢集使用的 VPC 以外的 Word 上部署資料庫伺服器,請考慮下列事項:
在 slurmdbd
和資料庫伺服器之間設定 TLS 加密
使用預設 Slurm 如果伺服器支援 TLS encryption. AWS database 服務,例如 Amazon RDS,且預設 Amazon Aurora 支援 TLS 加密,則 AWS ParallelCluster 提供的會計組態會slurmdbd
建立與資料庫伺服器的 TLS 加密連線。
您可以在資料庫伺服器上設定 require_secure_transport
參數,在伺服器端要求安全連線。這是在 provided CloudFormation 範本中設定。
遵循安全最佳實務,建議您也在slurmdbd
用戶端上啟用伺服器身分驗證。若要這樣做,請在 中設定 StorageParametersslurmdbd.conf
。將伺服器 CA 憑證上傳至叢集的主機節點。接著,將 StorageParameters
中的 SSL_CAslurmdbd.conf
設定為主機節點上伺服器 CA 憑證的路徑。這樣做可在 slurmdbd
端啟用伺服器身分驗證。進行這些變更後,請重新啟動 slurmdbd
服務,以在啟用身分驗證的情況下重新建立與資料庫伺服器的連線。
更新資料庫登入資料
若要更新資料庫/UserName 或 PasswordSecretArn 的值,您必須先停止運算機群。假設存放在秘密中的 AWS Secrets Manager 秘密值已變更,且其 ARN 不會變更。在這種情況下,叢集不會自動將資料庫密碼更新為新值。若要更新叢集的新秘密值,請從主機節點執行下列命令。
$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告
為了避免遺失會計資料,我們建議您只在運算機群停止時變更資料庫密碼。
資料庫監控
建議您啟用 AWS 資料庫服務的監控功能。如需詳細資訊,請參閱 Amazon RDS 監控或 Amazon Aurora 監控文件。