常見錯誤和疑難排解 - AWS Batch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

常見錯誤和疑難排解

中的錯誤 AWS Batch 通常發生在應用程式層級,或是由不符合特定任務需求的執行個體組態所造成。其他問題包括任務卡在 RUNNABLE 狀態,或運算環境卡在 INVALID 狀態。如需有關疑難排解任務卡在 RUNNABLE 狀態的詳細資訊,請參閱 任務卡在 RUNNABLE 狀態。如需 INVALID 狀態中運算環境的疑難排解資訊,請參閱 INVALID 運算環境

  • 檢查 Amazon EC2 Spot vCPU 配額 – 驗證您目前的服務配額是否符合任務要求。例如,假設您目前的服務配額為 256, vCPUs 且任務需要 10,000 vCPUs。然後,服務配額不符合任務要求。如需詳細資訊和疑難排解指示,請參閱 Amazon EC2服務配額如何增加 Amazon 的服務配額EC2resources?

  • 任務在應用程式執行之前失敗 – 有些任務可能因DockerTimeoutError錯誤或CannotPullContainerError錯誤而失敗。如需疑難排解資訊,請參閱如何解決 中的「DockerTimeoutError」錯誤 AWS Batch?

  • IP 地址不足 – 您 VPC和 子網路中的 IP 地址數目可能會限制您可以建立的執行個體數目。使用無類別網域間路由 (CIDRs) 提供比執行工作負載所需的 IP 地址更多。如有必要,您也可以建置VPC具有大型地址空間的專用 。例如,您可以在每個可用區域中建立VPC具有多個 CIDRs 的 ,10.x.0.0/16以及具有 CIDR 的子網路10.x.y.0/17。在此範例中,x 介於 1-4 之間,y 為 0 或 128。此組態在每個子網路中提供 36,000 個 IP 地址。

    VPC diagram showing 6 private subnets with different CIDR ranges across 3 Availability Zones.
  • 確認執行個體已向 Amazon 註冊 EC2 – 如果您在 Amazon EC2主控台中看到執行個體,但 Amazon ECS叢集中沒有 Amazon Elastic Container Service 容器執行個體,Amazon ECS代理程式可能不會安裝在 Amazon Machine Image () 上AMI。Amazon ECS Agent、您 中的 Amazon EC2 Data AMI或啟動範本也可能未正確設定。若要隔離根本原因,請建立單獨的 Amazon EC2執行個體,或使用 連線到現有的執行個體SSH。如需詳細資訊,請參閱 Amazon ECS容器代理程式組態 Amazon ECS Log File Locations 運算資源 AMIs

  • 檢閱 AWS 儀表板:檢閱 AWS 儀表板,以確認預期的任務狀態,以及運算環境依預期擴展。您也可以檢閱 中的任務日誌 CloudWatch。

  • 確認您的執行個體是否已建立 – 如果已建立執行個體,則表示您的運算環境會如預期擴展。如果未建立執行個體,請在運算環境中尋找要變更的相關子網路。如需詳細資訊,請參閱驗證 Auto Scaling 群組 的擴展活動

    我們也建議您確認您的執行個體可以滿足相關的任務需求。例如,任務可能需要 1 TiB 的記憶體,但運算環境使用的 C5 執行個體類型限制為 192 GB 的記憶體。

  • 確認您的執行個體是否正由 請求 AWS Batch – 檢查 Auto Scaling 群組歷史記錄,以確認您的執行個體正由 請求 AWS Batch。這是 Amazon EC2 嘗試如何取得執行個體的指示。如果您收到錯誤,指出 Amazon EC2 Spot 無法在特定可用區域中取得執行個體,這可能是因為可用區域不提供特定執行個體系列。

  • 確認執行個體向 Amazon 註冊 ECS – 如果您在 Amazon EC2主控台中看到執行個體,但 Amazon ECS叢集中沒有 Amazon ECS容器執行個體,Amazon ECS代理程式可能不會安裝在 Amazon Machine Image () 上AMI。此外,Amazon ECS Agent、您 中的 Amazon EC2 Data AMI或啟動範本可能無法正確設定。若要隔離根本原因,請建立單獨的 Amazon EC2執行個體,或使用 連線到現有的執行個體SSH。如需詳細資訊,請參閱CloudWatch 代理程式組態檔案:日誌區段 Amazon ECS Log File Locations 運算資源 AMIs

  • 開啟支援票證 – 如果您在進行故障診斷後仍遇到問題,並擁有支援計畫,請開啟支援票證。在支援票證中,請務必包含有關問題、工作負載詳細資訊、組態和測試結果的資訊。如需詳細資訊,請參閱比較 AWS Support 計劃

  • 檢閱 AWS Batch 和 HPC 論壇 – 如需詳細資訊,請參閱 AWS BatchHPC論壇。

  • 檢閱 AWS Batch 執行期監控儀表板 – 此儀表板使用無伺服器架構從 Amazon ECS、 和 Amazon 擷取事件 AWS Batch,EC2以提供任務和執行個體的洞見。如需詳細資訊,請參閱AWS Batch 執行期監控儀表板解決方案