AWS 平行運算服務入門 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS 平行運算服務入門

這是建立可用於 try AWS PCS 的簡單叢集的教學課程。下圖顯示叢集的設計。

教學叢集的架構圖:2 個運算節點群組是 中的資源 AWS 帳戶 ,並連接至在服務擁有的 中執行的 Slurm 叢集控制器 AWS 帳戶。兩個運算節點群組中的 EC2 執行個體都連接至 Amazon EFS 和 Amazon FSx for Lustre 中的共用儲存體。

教學課程叢集設計具有下列主要元件:

  • 符合 VPC AWS 網路需求的 PCS 和子網路。

  • Amazon EFS 檔案系統,將用作共用主目錄。

  • Amazon FSx for Lustre 檔案系統,提供共用的高效能目錄。

  • An AWS PCS 叢集,提供 Slurm 控制器。

  • 2 AWS PCS 運算節點群組。

    • login 節點群組,提供系統以 shell 為基礎的互動式存取。

    • compute-1 節點群組提供彈性擴展執行個體來執行任務。

  • 將任務傳送至compute-1節點群組中 EC2 執行個體的 1 個佇列。

叢集需要其他 AWS 資源,例如安全群組、IAM 角色和 EC2 啟動範本,這些未顯示在圖表中。

注意

建議您在 Bash Shell 中完成本主題中的命令列步驟。如果您不使用 Bash shell,則某些指令碼命令 (如行接續字元以及設定和使用變數的方式) 需要針對 shell 進行調整。此外,您的 Shell 的引用及轉義規則可能會有所不同。如需詳細資訊,請參閱 中的 第 AWS Command Line Interface 2 版使用者指南中的引號和包含字串的常值 AWS CLI