[queue] 區段 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

[queue] 區段

定義單一佇列的組態設定。 [queue]僅當設定為時scheduler,才支援剖面slurm

格式為[queue <queue-name>]佇列名稱必須以小寫字母開頭,不得超過 30 個字元,且只能包含小寫字母、數字和連字號 (-)。

[queue q1] compute_resource_settings = i1,i2 placement_group = DYNAMIC enable_efa = true disable_hyperthreading = false compute_type = spot
注意

在 AWS ParallelCluster 版本 2.9.0 中添加了對該[queue]部分的 Support。

compute_resource_settings

(必要)[compute_resource]別包含此佇列之計算資源組態的區段。段落名稱必須以字母開頭,不得超過 30 個字元,且只能包含字母、數字、連字號 (-) 和底線 (_)。

每個區[compute_resource]段最多支援三 (3) 個[queue]區段

例如,下列設定指定開始[compute_resource cr1]和使用[compute_resource cr2]的區段。

compute_resource_settings = cr1, cr2

更新政策:如果變更此設定,則不允許更新。

compute_type

(選擇性) 定義要針對此佇列啟動的執行個體類型。此設定會取代 cluster_type 設定。

有效選項為:ondemandspot

預設值為 ondemand

如需 Spot 執行個體的詳細資訊,請參閱 使用 競價型執行個體

注意

使用 Spot 執行個體時,您的帳戶中必須有AWSServiceRoleForEC2Spot服務連結角色。若要使用在您的帳戶中建立此角色 AWS CLI,請執行下列命令:

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

如需詳細資訊,請參閱 Amazon EC2 使用者指南的 Spot 執行個體請求的服務連結角色

下列範例會用 SpotInstances 於此佇列中的運算節點。

compute_type = spot

更新政策:必須停止運算機群,才能變更此設定以進行更新。

disable_hyperthreading

(選擇性) 停用此佇列中節點上的超執行緒。並非所有執行個體類型都可以停用超執行緒。如需支援停用超執行緒的執行個體類型清單,請參閱 Amazon EC2 使用者指南中每個執行個體類型每個 CPU 核心的 CPU 核心和執行緒。如果已定disable_hyperthreading[cluster]區段中的設定,則無法定義此設定。

預設值為 false

disable_hyperthreading = true

更新政策:必須停止運算機群,才能變更此設定以進行更新。

enable_efa

(選擇性) 如果設定為true,則指定針對此佇列中的節點啟用 Elastic Fabric Adapter (EFA)。若要檢視支援 EFA 的 EC2 執行個體清單,請參閱 Amazon EC2 Linux 執行個體使用者指南中支援的執行個體類型。如果已定enable_efa[cluster]區段中的設定,則無法定義此設定。應使用叢集置放群組以充分減少執行個體之間的延遲。如需詳細資訊,請參閱 placementplacement_group

enable_efa = true

更新政策:必須停止運算機群,才能變更此設定以進行更新。

enable_efa_gdr

(選擇性) 從 2.11.3 AWS ParallelCluster 版開始,此設定沒有任何作用。如果執行個體類型支援運算節點,則會一律啟用 GPUDirect RDMA (遠端直接記憶體存取) 的彈性網狀架構介面卡 (EFA) 支援。

注意

AWS ParallelCluster 2.10.0 到 2.11.2 版:如果true,指定為此佇列中的節點啟用 Elastic Fabric Adapter (EFA) GPUDirect RDMA (遠端直接記憶體存取)。若true要將此設定enable_efa設定為 true .EFA GPUDirect RDMA,這些作業系統上的下列執行個體類型 (p4d.24xlarge) 支援這些作業系統 (alinux2、、或)。centos7 ubuntu1804 ubuntu2004如果已定enable_efa_gdr[cluster]區段中的設定,則無法定義此設定。應使用叢集置放群組以充分減少執行個體之間的延遲。如需詳細資訊,請參閱 placementplacement_group

預設值為 false

enable_efa_gdr = true
注意

在 AWS ParallelCluster 版本 2.10.0 中添加enable_efa_gdr了對的 Support。

更新政策:必須停止運算機群,才能變更此設定以進行更新。

placement_group

(選擇性) 如果存在,則定義此佇列的放置群組。此設定會取代 placement_group 設定。

有效的選項為下列值:

  • DYNAMIC

  • 現有的 Amazon EC2 叢集置放群組名稱

設定為時DYNAMIC,會建立此佇列的唯一放置群組,並做為叢集堆疊的一部分刪除。

如需置放群組的詳細資訊,請參閱 Amazon EC2 使用者指南中的放置群組。如果不同的執行個體類型使用相同的置放群組,則要求可能會因為容量不足錯誤而失敗。如需詳細資訊,請參閱 Amazon EC2 使用者指南中的執行個體容量不足

沒有預設值。

並非所有執行個體類型都支援叢集置放群組。例如,t2.micro不支援叢集置放群組。如需支援叢集置放群組的執行個體類型清單的相關資訊,請參閱 Amazon EC2 使用者指南中的叢集放置群組規則和限制。如需使用置放群組的秘訣,請參閱 置放群組和執行個體啟動問題

placement_group = DYNAMIC

更新政策:必須停止運算機群,才能變更此設定以進行更新。