什麼是 AWS 平行運算服務? - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS 平行運算服務?

AWS 平行運算服務 (AWS PCS) 是一項受管服務,可讓您更輕鬆地執行和擴充高效能運算 (HPC) 工作負載,並在 AWS 使用 Slurm 上建置科學與工程模型。用 AWS PCS於建置整合最佳運 AWS 算、儲存、網路和視覺化的運算叢集。執行模擬或建立科學和工程模型。使用內建的管理和觀察功能,簡化叢集作業。讓使用者能夠在熟悉的環境中執行應用程式和工作,讓他們專注於研究和創新。

重要概念

中的叢集 AWS PCS具有 1 或多個佇列,與至少 1 個計算節點群組相關聯。工作會提交至佇列,並在運算節點群組定義的EC2執行個體上執行。您可以使用這些基礎來實作複雜的HPC架構。

叢集

叢集是用於管理資源和執行工作負載的資源。叢集是定義運算、網路、儲存體、身分識別和工作排程器組態組件的 AWS PCS資源。您可以透過指定要使用的工作排程器 (目前 Slurm)、您想要的排程器組態、要管理叢集的服務控制器,以及要在其VPC中啟動叢集資源來建立叢集。排程器接受並排程工作,並啟動處理這些工作的運算節點 (EC2執行個體)。

計算節點群組

計算節點群組是運算節點的集合,可 AWS PCS用來執行作業或提供叢集的互動式存取權。定義運算節點群組時,您可以指定常見特徵,例如 Amazon EC2 執行個體類型、最小和最大執行個體計數、目標VPC子網路、Amazon Machine Image (AMI)、購買選項和自訂啟動組態。 AWS PCS使用這些設定來有效率地啟動、管理和終止運算節點群組中的運算節點。

佇列

當您想要在特定叢集上執行工作時,請將它送出至特定佇列 (有時也稱為分割區)。工作會保留在佇列中,直到 AWS PCS排定它在計算節點群組上執行為止。您可以將一或多個計算節點群組與每個佇列產生關聯。使用工作排程器提供的各種排程原則,需要佇列才能在基礎計算節點群組資源上排程和執行工作。使用者不會將工作直接提交至計算節點或計算節點群組。

系統管理員

系統管理員部署、維護和操作叢集。他們可以 AWS PCS透過 AWS Management Console AWS PCSAPI、和存取 AWS SDK。他們可以通過SSH或訪問特定的集群 AWS Systems Manager,他們可以在那裡運行管理任務,運行作業,管理數據,並執行其他基於 shell 的活動。如需詳細資訊,請參閱 AWS Systems Manager 文件

終端使用者

一般使用者沒有部署或操作叢集的 day-to-day 責任。他們使用終端機介面 (例如SSH) 來存取叢集資源、執行作業、管理資料,以及執行其他 shell 型活動。