設定 SageMaker 多模型端點模型快取行為 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 SageMaker 多模型端點模型快取行為

依預設,多模型端點會在記憶體 (CPU 或 GPU,取決於您是否具有CPU或GPU支援執行個體) 和磁碟上快取常用模型,以提供低延遲推論。僅當容器用完記憶體或磁碟空間無法容納新目標模型時,才會從磁碟卸載和/或刪除已快取模型。

您可變更多模型端點的快取行為,並在呼叫 create_model 時,設定 ModelCacheSetting 參數來明確啟用或停用模型快取。

對於不受益於模型快取的使用案例,建議設定 ModelCacheSetting 參數的值為 Disabled。例如,當需要從端點為大量模型提供服務,但每個模型僅調用一次 (或很少使用) 時。對於此類使用案例,將 ModelCacheSetting 參數的值設定為Disabled允許invoke_endpoint請求的每秒交易量 (TPS) 高於預設快取模式。TPS 在這些使用案例中,較高的是 ,因為 會在invoke_endpoint請求後 SageMaker 執行下列動作:

  • 以非同步方式從記憶體卸載模型,並在調用模型之後立即從磁碟刪除該模型。

  • 在推論容器為下載及載入模型提供更高並行性。對於 CPU和 GPU後端端點,並行是容器執行個體數量 vCPUs 的因素。

如需為多模型端點選擇 SageMaker ML 執行個體類型的指南,請參閱 多模型端點部署的執行個體建議