本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 建立叢集 Slurm 會計
了解如何使用 設定和建立叢集 Slurm 會計。如需詳細資訊,請參閱Slurm 使用 計費 AWS ParallelCluster。
使用 AWS ParallelCluster 命令列界面 (CLI) 或 API 時,您只需為建立或更新 AWS ParallelCluster 映像和叢集時建立 AWS 的資源付費。如需詳細資訊,請參閱AWS 所使用的 服務 AWS ParallelCluster。
PCUI 是以無伺服器架構為基礎,您可以在 AWS 免費方案類別中用於大多數情況。如需詳細資訊,請參閱PCUI成本。
在本教學課程中,您會使用 CloudFormation 快速建立範本 (us-east-1)
注意
從 3.3.0 版開始, AWS ParallelCluster 支援 Slurm 使用叢集組態參數 SlurmSettings/資料庫進行會計。
注意
快速建立範本做為範例。此範本未涵蓋 的所有可能使用案例 Slurm 會計資料庫伺服器。您有責任建立具有適合您生產工作負載之組態和容量的資料庫伺服器。
事前準備:
-
AWS ParallelCluster 已安裝 。
-
AWS CLI 已安裝並設定 。
-
您有 Amazon EC2 金鑰對。
-
您在 中部署快速建立範本的區域支援 Amazon Aurora MySQL 無伺服器 v2。如需詳細資訊,請參閱 Aurora MySQL 的 Aurora Serverless v2。
步驟 1:建立 的 VPC 和子網路 AWS ParallelCluster
使用 提供的 CloudFormation 範本 Slurm 會計資料庫,您必須備妥叢集的 VPC。您可以手動執行此操作,或作為使用 AWS ParallelCluster 命令列界面設定和建立叢集程序的一部分。如果您已使用 AWS ParallelCluster,則可能已備妥 VPC 以供部署叢集和資料庫伺服器。
步驟 2:建立資料庫堆疊
使用 CloudFormation 快速建立範本 (us-east-1)
-
資料庫伺服器登入資料,特別是管理員使用者名稱和密碼。
-
無 Amazon Aurora 伺服器叢集的大小。這取決於預期的叢集載入。
-
網路參數,特別是用於建立子網路的目標 VPC 和子網路或 CIDR 區塊。
為您的資料庫伺服器選取適當的登入資料和大小。對於聯網選項,您需要使用 AWS ParallelCluster 部署叢集的相同 VPC。您可以建立資料庫的子網路,並將其做為輸入傳遞至範本。或者,為兩個子網路提供兩個不相交的 CIDR 區塊,並讓 CloudFormation 範本為 CIDR 區塊建立兩個子網路。請確定 CIDR 區塊不會與現有的子網路重疊。如果 CIDR 區塊與現有的子網路重疊,則無法建立堆疊。
建立資料庫伺服器需要幾分鐘的時間。
步驟 3:使用 建立叢集 Slurm 已啟用會計
提供的 CloudFormation 範本會產生具有一些已定義輸出的 a CloudFormation 堆疊。從 AWS Management Console,您可以在 CloudFormation 堆疊檢視的輸出索引標籤中檢視輸出。若要啟用 Slurm 會計,其中一些輸出必須在 AWS ParallelCluster 叢集組態檔案中使用:
-
DatabaseHost
:用於 SlurmSettings / Database / Uri叢集組態參數。 -
DatabaseAdminUser
:用於 SlurmSettings / / Database UserName叢集組態參數值。 -
DatabaseSecretArn
:用於 SlurmSettings / Database / PasswordSecretArn叢集組態參數。 -
DatabaseClientSecurityGroup
:這是附加至叢集之主節點的安全群組,其定義在 HeadNode / Networking / SecurityGroups組態參數中。
使用輸出值更新您的叢集組態檔案Database
參數。使用 pcluster CLI 建立叢集。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
建立叢集之後,您可以開始使用 Slurm 會計命令,例如 sacctmgr
或 sacct
。