Slurm 使用 計費 AWS ParallelCluster - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Slurm 使用 計費 AWS ParallelCluster

從 3.3.0 版開始, AWS ParallelCluster 支援 Slurm 使用叢集組態參數 SlurmSettings/資料庫進行會計。

從 3.10.0 版開始, AWS ParallelCluster 支援 Slurm 使用外部 Slurmdbd 與叢集組態參數 SlurmSettings / ExternalSlurmdbd 進行會計。如果多個叢集共用相同的資料庫,建議使用外部 Slurmdbd。

使用 Slurm 會計,您可以整合外部會計資料庫來執行下列動作:

  • 管理叢集使用者或使用者群組和其他實體。透過此功能,您可以使用 Slurm更進階的功能,例如資源限制強制執行、公平共用和 QOSs。

  • 收集並儲存任務資料,例如執行任務的使用者、任務的持續時間,以及其使用的資源。您可以使用 sacct公用程式檢視儲存的資料。

注意

AWS ParallelCluster 支援 Slurm 的 會計 Slurm 支援的 MySQL 資料庫伺服器

使用 Slurm 使用外部 計費 Slurmdbd 在 AWS ParallelCluster v3.10.0 和更新版本中

設定 之前 Slurm 會計,您必須擁有現有的外部 Slurmdbd 資料庫伺服器,可連線至現有的外部資料庫伺服器。

若要設定此項目,請定義下列項目:

  • 外部 的地址 Slurmdbd ExternalSlurmdbd / Host 中的 伺服器。伺服器必須存在,且可從主機節點連線。

  • 要與外部通訊的 munge 金鑰 Slurmdbd MungeKeySecretArn 中的 伺服器。

若要逐步完成教學課程,請參閱 使用外部Slurmdbd帳戶建立叢集

注意

您有責任管理 Slurm 資料庫會計實體。

AWS ParallelCluster 外部 的架構 SlurmDB 支援功能可讓多個叢集共用相同的 SlurmDB 和相同的資料庫。

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

警告

AWS ParallelCluster 與外部之間的流量 SlurmDB 未加密。建議執行叢集和外部 SlurmDB 在信任的網路中。

使用 Slurm 使用頭部節點進行會計 Slurmdbd 在 AWS ParallelCluster v3.3.0 和更新版本中

設定 之前 Slurm 會計,您必須擁有使用mysql通訊協定的現有外部資料庫伺服器和資料庫。

設定 Slurm 使用 會計 AWS ParallelCluster,您必須定義下列項目:

  • Database / Uri 中外部資料庫伺服器的 URI。伺服器必須存在,且可從主機節點連線。

  • 存取資料庫 / PasswordSecretArn 資料庫 / UserName 中定義的外部資料庫的登入資料。 AWS ParallelCluster 會使用此資訊在 設定會計 Slurm 層級和主機節點上的 slurmdbd服務。 slurmdbd 是管理叢集與資料庫伺服器之間通訊的協助程式。

若要逐步完成教學課程,請參閱 使用 建立叢集 Slurm 會計

注意

AWS ParallelCluster 會執行 的基本引導 Slurm 會計資料庫,方法是將預設叢集使用者設定為 中的資料庫管理員 Slurm database. AWS ParallelCluster doesn 不會將任何其他使用者新增至會計資料庫。客戶負責管理 中的會計實體 Slurm 資料庫。

AWS ParallelCluster 設定 slurmdbd 以確保叢集擁有自己的 Slurm 資料庫伺服器上的 資料庫。相同的資料庫伺服器可以跨多個叢集使用,但每個叢集都有自己的個別資料庫。 AWS ParallelCluster 會使用叢集名稱在slurmdbd組態檔案StorageLoc參數中定義資料庫的名稱。請考慮下列情況。資料庫伺服器上存在的資料庫包含未對應至作用中叢集名稱的叢集名稱。在這種情況下,您可以使用該叢集名稱建立新的叢集,以對應至該資料庫。Slurm 會為新叢集重複使用資料庫。

警告
  • 我們不建議設定多個叢集來一次使用相同的資料庫。這樣做可能會導致效能問題,甚至是資料庫死鎖情況。

  • If Slurm 在叢集的主機節點上啟用 會計,我們建議您使用具有強大 CPU、更多記憶體和更高網路頻寬的執行個體類型。Slurm 會計可以在叢集的主機節點上新增負載。

在 的目前架構中 AWS ParallelCluster Slurm 會計功能,每個叢集都有自己的slurmdbd協助程式執行個體,如下圖範例組態所示。

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

如果您要新增自訂 Slurm 叢集環境的多叢集或聯合功能,所有叢集都必須參考相同的slurmdbd執行個體。對於此替代方案,我們建議您啟用 AWS ParallelCluster Slurm 在一個叢集上進行會計,並手動設定其他叢集,以連線至slurmdbd在第一個叢集上託管的 。

如果您使用的 AWS ParallelCluster 是 3.3.0 版之前的版本,請參閱要實作的替代方法 Slurm 會計,如本 HPC 部落格文章所述。

Slurm 會計考量

不同 VPCs 上的資料庫和叢集

啟用 Slurm 會計,需要資料庫伺服器做為slurmdbd協助程式執行的讀取和寫入操作的後端。在建立或更新叢集之前,啟用 Slurm 會計,主機節點必須能夠連線到資料庫伺服器。

如果您需要在叢集使用的 VPC 以外的 Word 上部署資料庫伺服器,請考慮下列事項:

  • 若要啟用叢集端 slurmdbd 與資料庫伺服器之間的通訊,您必須在兩個 VPCs 之間設定連線。如需詳細資訊,請參閱《Amazon Virtual Private Cloud 使用者指南》中的VPC對等

  • 您必須建立要連接到叢集 VPC 上主節點的安全群組。對等兩個 VPCs 之後,即可在資料庫端與叢集端安全群組之間進行交叉連結。如需詳細資訊,請參閱《Amazon Virtual Private Cloud 使用者指南》中的安全群組規則

slurmdbd和資料庫伺服器之間設定 TLS 加密

使用預設 Slurm 如果伺服器支援 TLS encryption. AWS database 服務,例如 Amazon RDS,且預設 Amazon Aurora 支援 TLS 加密,則 AWS ParallelCluster 提供的會計組態會slurmdbd建立與資料庫伺服器的 TLS 加密連線。

您可以在資料庫伺服器上設定 require_secure_transport 參數,在伺服器端要求安全連線。這是在 provided CloudFormation 範本中設定。

遵循安全最佳實務,建議您也在slurmdbd用戶端上啟用伺服器身分驗證。若要這樣做,請在 中設定 StorageParametersslurmdbd.conf。將伺服器 CA 憑證上傳至叢集的主機節點。接著,將 StorageParameters 中的 SSL_CA 選項slurmdbd.conf設定為主機節點上伺服器 CA 憑證的路徑。這樣做可在 slurmdbd 端啟用伺服器身分驗證。進行這些變更後,請重新啟動 slurmdbd服務,以在啟用身分驗證的情況下重新建立與資料庫伺服器的連線。

更新資料庫登入資料

若要更新資料庫/UserName PasswordSecretArn 的值,您必須先停止運算機群。假設存放在秘密中的 AWS Secrets Manager 秘密值已變更,且其 ARN 不會變更。在這種情況下,叢集不會自動將資料庫密碼更新為新值。若要更新叢集的新秘密值,請從主機節點執行下列命令。

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告

為了避免遺失會計資料,我們建議您只在運算機群停止時變更資料庫密碼。

資料庫監控

建議您啟用 AWS 資料庫服務的監控功能。如需詳細資訊,請參閱 Amazon RDS 監控Amazon Aurora 監控文件。