使用外部Slurmdbd帳戶建立叢集 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用外部Slurmdbd帳戶建立叢集

了解如何使用外部帳戶設定和建立叢集。Slurmdbd如需詳細資訊,請參閱使用的Slurm帳戶 AWS ParallelCluster。

使用命 AWS ParallelCluster 令列介面 (CLI) 或 API 時,您只需為建立或更新 AWS ParallelCluster 映像和叢集時建立的 AWS 資源付費。如需詳細資訊,請參閱使用的AWS 服務 AWS ParallelCluster

AWS ParallelCluster UI 建立在無伺服器架構上,在大多數情況下,您可以在 AWS Free Tier類別中使用它。如需詳細資訊,請參閱 AWS ParallelCluster UI 成本

在本教學課程中,您會使用 AWS CloudFormation 快速建立範本來建立必要的元件,以便在與叢集相同的 VPC 上部署 Slurmdbd 執行個體。此範本會為叢集與資料庫之間的連線建立基本的網路和安全性設定。

注意

從開始version 3.10.0,使用群集設定參數 AWS ParallelCluster 支援外部 Slurmdbd。SlurmSettings / ExternelSlurmdbd

注意

快速創建模板作為一個例子。此模板不涵蓋所有可能的用例。您有責任建立具有適合您生產工作負載的設定和容量的外部 Slurmdbd。

事前準備:

第 1 步:創建思路堆棧

在本教程中,使用CloudFormation 快速創建模板(us-east-1創建 Surmdbd 堆棧。該模板需要以下輸入:

聯網
  • VPCid:用來啟動實例的虛擬私人雲端識別碼。

  • SubnetId:用來啟動 Slurmdbd 執行個體的子網路識別碼。

  • PrivatePrefix:虛擬私人 VPC 的 CIDR 前置詞。

  • PrivateIp:要指派給 Slurmdbd 執行個體的次要私有 IP。

資料庫連線
  • 安全性群組:要附加至 S lurmdbd 執行個體的安全性群組。此安全群組應允許資料庫伺服器和 Slurmdbd 執行個體之間的連線。

  • 數據庫管理系統 DatabaseName:數據庫的名稱。

  • DBM 使用者名稱:資料庫的使用者名稱。

  • DBMS PasswordSecretArn:包含密碼到數據庫的秘密。

  • DBSURI:資料庫伺服器的 URI。

執行個體設定
  • InstanceType:要用於 slurmdbd 執行個體的執行個體類型。

  • KeyName:用於 slurmdbd 執行個體的 Amazon EC2 key pair。

藍牙設置
  • AMIID:思魯姆德實例的 AMI。AMI 應該是 ParallelCluster AMI。 ParallelCluster AMI 的版本確定思樂姆德的版本。

  • MungeKeySecretArn:包含用於驗證 Surmdbd 和叢集之間通訊的 munge 金鑰的秘密。

  • SlurmdbdPort:所使用的連接埠號碼。

  • EnableSlurmdbdSystemService:啟用 slurmdbd 作為系統服務,並在執行個體啟動時執行。

警告

如果資料庫是由不同版本的建立SlurmDB,請勿做Slurmdbd為系統服務使用。

如果資料庫包含大量項目,則Slurm Database Daemon (SlurmDBD)可能需要數十分鐘才能更新資料庫,而且在此時間間隔內沒有回應。

升級之前SlurmDB,請先備份資料庫。如需詳細資訊,請參閱 Slurm 文件

步驟 2:建立Slurmdbd啟用外部的叢集

提供的 AWS CloudFormation 模板生成一個包含一些已解決輸出的 AWS CloudFormation 堆棧。

從中檢視 AWS CloudFormation 堆疊中的 [輸出] 索引標籤 AWS Management Console,以檢閱建立的實體。要啟用會Slurm計,必須在 AWS ParallelCluster 配置中使用其中一些輸出:

另外,從 AWS CloudFormation 堆棧視圖中的「參數」選項卡中:

使用輸出值更新您的叢集設定資料庫參數。使用 pcluster AWS CLI 來建立叢集。

$ pcluster create-cluster -n cluster-3.x-c path/to/cluster-config.yaml

建立叢集之後,您可以開始使用Slurm帳號指令,例如sacctmgrsacct

警告

與外部ParallelCluster之間的流SlurmDB量未加密。建議您在受信任的網路SlurmDB中執行叢集和外部。