Slurm 使用 計費 AWS ParallelCluster - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Slurm 使用 計費 AWS ParallelCluster

從 3.3.0 版開始, AWS ParallelCluster 支援 Slurm 使用叢集組態參數 SlurmSettings / 資料庫 進行會計。

從 3.10.0 版開始, AWS ParallelCluster 支援 Slurm 使用具有叢集組態參數 SlurmSettings / 的外部 Slurmdbd 進行計費ExternalSlurmdbd。如果多個叢集共用相同的資料庫,建議使用外部 Slurmdbd。

使用 Slurm 會計,您可以整合外部會計資料庫來執行下列動作:

  • 管理叢集使用者或使用者和其他實體的群組。透過此功能,您可以使用 Slurm的更進階功能,例如資源限制強制執行、Fairshare 和 QOSs。

  • 收集並儲存任務資料,例如執行任務的使用者、任務的持續時間及其使用的資源。您可以使用 sacct公用程式檢視儲存的資料。

注意

AWS ParallelCluster 支援 Slurm 的 會計 Slurm 支援我的SQL資料庫伺服器

使用 Slurm 使用外部 計費 Slurmdbd v3.10.0 及更新 AWS ParallelCluster 版本

設定 之前 Slurm 會計,您必須具有現有的外部 Slurmdbd 資料庫伺服器,可連線至現有的外部資料庫伺服器。

若要設定此設定,請定義以下內容:

  • 外部 的地址 Slurmdbd ExternalSlurmdbd / 主機 中的伺服器。伺服器必須存在,並且可以從主機節點存取。

  • 要與外部 通訊的 munge 金鑰 Slurmdbd 中的伺服器MungeKeySecretArn

若要逐步完成教學課程,請參閱 使用外部Slurmdbd帳戶建立叢集

注意

您有責任管理 Slurm 資料庫會計實體。

AWS ParallelCluster 外部 的架構 SlurmDB 支援功能可啟用多個共享相同的叢集 SlurmDB 和相同的資料庫。

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

警告

AWS ParallelCluster 與外部之間的流量 SlurmDB 未加密。建議執行叢集和外部 SlurmDB 在信任的網路中。

使用 Slurm 使用主機節點進行會計 Slurmdbd v3.3.0 及更新 AWS ParallelCluster 版本

設定 之前 Slurm 會計,您必須擁有使用mysql通訊協定的現有外部資料庫伺服器和資料庫。

若要設定 Slurm 使用 會計 AWS ParallelCluster,您必須定義以下內容:

  • Database / Uri 中URI外部資料庫伺服器的 。 伺服器必須存在,並且可以從主機節點存取。

  • 存取資料庫 / PasswordSecretArn資料庫 / 中定義的外部資料庫的憑證UserName。 AWS ParallelCluster 會使用此資訊在 設定會計 Slurm 層級和主機節點上的 slurmdbd服務。 slurmdbd是管理叢集與資料庫伺服器之間通訊的常駐程式。

若要逐步完成教學課程,請參閱 使用 建立叢集 Slurm 會計

注意

AWS ParallelCluster 會執行 的基本引導 Slurm 會計資料庫,方法是將預設叢集使用者設定為 中的資料庫管理員 Slurm database. AWS ParallelCluster doesn 不會將任何其他使用者新增至會計資料庫。客戶負責管理 中的會計實體 Slurm 資料庫。

AWS ParallelCluster 設定 slurmdbd 以確保叢集擁有自己的 Slurm 資料庫伺服器上的資料庫。相同的資料庫伺服器可以跨多個叢集使用,但每個叢集都有自己的獨立資料庫。 AWS ParallelCluster 會使用叢集名稱在slurmdbd組態檔案StorageLoc參數中定義資料庫的名稱。請考慮下列情況。資料庫伺服器上存在的資料庫包含未對應至作用中叢集名稱的叢集名稱。在這種情況下,您可以使用該叢集名稱建立新的叢集,以對應至該資料庫。Slurm 會重複使用新叢集的資料庫。

警告
  • 我們不建議設定多個叢集,以一次使用相同的資料庫。這樣做可能會導致效能問題,甚至是資料庫鎖定情況。

  • If Slurm 在叢集的主機節點上啟用 會計,我們建議您使用具有強大 CPU、更多記憶體和更高網路頻寬的執行個體類型。Slurm 會計可以在叢集的主機節點上新增負載。

在 的目前架構中 AWS ParallelCluster Slurm 會計功能,每個叢集都有自己的slurmdbd常駐程式執行個體,如下圖範例組態所示。

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

如果您要新增自訂 Slurm 叢集環境的多叢集或聯合功能,所有叢集都必須參考相同的slurmdbd執行個體。對於此替代方案,我們建議您啟用 AWS ParallelCluster Slurm 在一個叢集上進行計費,並手動設定其他叢集,以連線至slurmdbd在第一個叢集上託管的 。

如果您使用的 AWS ParallelCluster 是 3.3.0 版之前的版本,請參閱要實作的替代方法 Slurm 會計,如本HPC部落格文章 所述。

Slurm 會計考量

不同 上的資料庫和叢集 VPCs

若要啟用 Slurm 會計,資料庫伺服器需要作為slurmdbd常駐程式執行的讀取和寫入操作的後端。建立或更新叢集以啟用之前 Slurm 會計,主機節點必須能夠連線到資料庫伺服器。

如果您需要將資料庫伺服器部署在叢集使用的 VPC以外的 上,請考慮下列事項:

  • 若要在叢集端slurmdbd的 與資料庫伺服器之間啟用通訊,您必須在兩個 之間設定連線VPCs。如需詳細資訊,請參閱 Amazon Virtual Private Cloud 使用者指南 中的VPC對等

  • 您必須建立要連接到VPC叢集 上主機節點的安全群組。對等兩個VPCs之後,即可在資料庫端與叢集端安全群組之間進行交互連結。如需詳細資訊,請參閱 Amazon Virtual Private Cloud 使用者指南 中的安全群組規則

設定 slurmdbd與資料庫伺服器之間的TLS加密

使用預設 Slurm 如果伺服器支援 TLS encryption. AWS database 服務,例如 Amazon,RDS並預設 Amazon Aurora 支援TLS加密,則 AWS ParallelCluster 提供 的計費組態會slurmdbd建立與資料庫伺服器的TLS加密連線。

您可以在資料庫伺服器上設定 require_secure_transport 參數,在伺服器端要求安全連線。這是在提供的 CloudFormation 範本中設定的。

遵循安全最佳實務,建議您也在slurmdbd用戶端上啟用伺服器身分驗證。若要這麼做,請在 StorageParameters中設定 slurmdbd.conf。將伺服器 CA 憑證上傳到叢集的主機節點。接下來,將 StorageParameters 中的 SSL_CA 選項slurmdbd.conf設定為主機節點上伺服器 CA 憑證的路徑。這樣做會在slurmdbd側邊啟用伺服器身分驗證。進行這些變更後,重新啟動 slurmdbd服務,以在啟用身分驗證的情況下重新建立與資料庫伺服器的連線。

更新資料庫憑證

若要更新資料庫 / UserName或 的值PasswordSecretArn,您必須先停止運算機群。假設儲存在秘密中的 AWS Secrets Manager 秘密值已變更,且ARN不會變更。在這種情況下,叢集不會自動將資料庫密碼更新為新值。若要更新叢集的新秘密值,請從主機節點執行下列命令。

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
警告

為了避免遺失會計資料,建議您只在運算機群停止時變更資料庫密碼。

資料庫監控

建議您啟用 AWS 資料庫服務的監控功能。如需詳細資訊,請參閱 Amazon RDS監控Amazon Aurora 監控文件。