SUS05-BP04 將硬體型運算加速器的使用方式最佳化
將加速運算執行個體的使用方式最佳化,以降低工作負載的實體基礎設施需求。
常見的反模式:
-
未監控 GPU 使用率。
-
針對工作負載使用一般用途的執行個體,但專用執行個體可以提供更高的效能、較低的成本,以及更優異的效能功耗比。
-
您使用硬體型運算加速器來執行任務,但使用 CPU 型運算加速器來執行時會更有效率。
建立此最佳實務的優勢: 將硬體型加速器的使用方式優化,可以降低工作負載的實體基礎設施需求。
未建立此最佳實務時的曝險等級: 中
實作指引
如果需要高處理能力,使用加速運算執行個體可讓您獲得好處,因為其可讓您存取硬體型運算加速器,例如圖形處理單元 (GPU) 和現場可程式化邏輯閘陣列 (FPGA)。這些硬體加速器在執行某些功能 (例如圖形處理或資料模式比對) 時,會比 CPU 型加速器更有效率。許多加速工作負載 (例如轉譯、轉碼和機器學習) 在資源用量方面極為變化不定。只在需要時執行此硬體,不需要時便將其自動除役,以將資源消耗降至最低。
實作步驟
-
識別哪些 加速運算執行個體 可以滿足您的要求。
-
針對機器學習工作負載,請利用專供工作負載使用的專用硬體,例如 AWS Trainium
、 AWS Inferentia ,和 Amazon EC2 DL1 。AWS Inferentia 執行個體 (例如 Inf2 執行個體) 最多可提供 比同類 Amazon EC2 執行個體高出 50% 的效能功耗比 。 -
請收集加速運算執行個體的用量指標。例如,您可以使用 CloudWatch 代理程式來收集指標,像是
utilization_gpu
和utilization_memory
,並將其用於您的 GPU,相關說明請見 使用 Amazon CloudWatch 收集 NVIDIA GPU 指標。 -
優化硬體加速器的程式碼、網路運作和設定,以確保系統會充分利用基礎硬體。
-
使用最新的高效能程式庫和 GPU 驅動程式。
-
使用自動化來釋出不使用的 GPU 執行個體。
資源
相關文件:
相關影片: