本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SUS05-BP04 將硬體型運算加速器的使用方式最佳化
將加速運算執行個體的使用方式最佳化,以降低工作負載的實體基礎設施需求。
常見的反模式:
-
未監控 GPU 使用率。
-
針對工作負載使用一般用途執行個體,但專用執行個體可以提供更高的效能、較低的成本,以及更優異的效能功耗比。
-
您使用硬體型運算加速器來執行任務,但使用 CPU 型運算加速器來執行時會更有效率。
建立此最佳實務的優勢:藉由將硬體型加速器的使用方式最佳化,您可以降低工作負載的實體基礎設施需求。
未建立此最佳實務時的曝險等級:中
實作指引
如果需要高處理能力,使用加速運算執行個體可讓您獲得好處,因為其可讓您存取硬體型運算加速器,例如圖形處理單元 (GPU) 和現場可程式化閘道陣列 (FPGA)。這些硬體加速器比基於 CPU 的替代品更有效地執行某些功能,例如圖形處理或資料模式匹配。許多加速的工作負載 (例如轉譯、轉碼和機器學習) 在資源使用方面變化很大。只在需要時執行此硬體,不需要時便將其自動除役,以將資源消耗降至最低。
實作步驟
-
探索運算加速器:確定哪些加速運算執行個體可以滿足您的需求。
-
使用專用硬體:針對機器學習工作負載,請利用專供工作負載使用的專用硬體,例如 AWS Trainium
、AWS Inferentia 和 Amazon EC2 DL1 。AWSInferentia 執行個體 (例如 Inf2 執行個體) 所提供的效能功耗比最多會比同類 Amazon EC2 執行個體高出 50% 。 -
監控用量指標:收集加速運算執行個體的用量指標。例如,可以使用 CloudWatch 代理程式為您的 GPU 收集
utilization_gpu
和utilization_memory
等指標,如使用 Amazon CloudWatch 收集 NVIDIA GPU 指標中所示。 -
大小調整:優化硬體加速器的程式碼、網路運作和設定,以確保系統會充分利用基礎硬體。
-
保持最新狀態:使用最新的高效能程式庫和 GPU 驅動程式。
-
發布不需要的執行個體:使用自動化來發布未使用的 GPU 執行個體。
資源
相關文件:
相關影片: