多節點平行任務 - AWS Batch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多節點平行任務

您可以使用多節點平行任務來執行跨越多個 Amazon EC2執行個體的單一任務。透過 AWS Batch 多節點平行工作 (也稱為 Gang 排程 ),您可以執行大規模的高效能運算應用程式和分散式GPU模型訓練,而不需要直接啟動、設定和管理 Amazon EC2 資源。 AWS Batch 多節點平行任務與支援 IP 型、內節點通訊的任何架構相容。範例包括 Apache MXNet、 TensorFlow、Caffe2 或訊息傳遞介面 (MPI)。

多節點平行任務會以單一任務形式提交。不過,您的任務定義 (或任務提交節點覆寫) 會指定要為任務或哪些節點群組建立的節點數量。每個多節點平行任務皆包含會最先啟動的主要節點。在主要節點啟動後,就會啟動和開始子節點。只有在主節點結束時,任務才會完成。接著會停止所有子節點。如需詳細資訊,請參閱節點群組

多節點平行任務節點是單一租戶。這表示每個 Amazon EC2執行個體只會執行單一任務容器。

最終任務狀態 (SUCCEEDEDFAILED) 取決主要節點的最終任務狀態。若要取得多節點平行任務的狀態,請使用提交任務時傳回的任務 ID 來描述任務。如果您需要子節點的詳細資訊,請個別描述每個子節點。您可以使用#N符號 (以 0 開頭) 來定址節點。例如,若要存取任務第二個節點的詳細資訊,請描述 aws_batch_job_id#1 AWS Batch DescribeJobs使用 API操作。startedstoppedAtstatusReasonexit 多節點平行任務的資訊,將從主要節點填入。

如果您指定任務重試,主節點失敗會導致再次嘗試。子節點失敗不會造成更多嘗試。每次新嘗試的多節點平行任務,皆會更新該嘗試所關聯的子節點。

若要在 上執行多節點平行任務 AWS Batch,您的應用程式程式碼必須包含分散式通訊所需的架構和程式庫。