設定 SageMaker AI 多模型端點模型快取行為

根據預設，多模型端點會在記憶體 (CPU 或 GPU，視您擁有 CPU 或 GPU 支援的執行個體而定) 與磁碟快取常用模型，以便提供低延遲推論。僅當容器用完記憶體或磁碟空間無法容納新目標模型時，才會從磁碟卸載和/或刪除已快取模型。

您可變更多模型端點的快取行為，並在呼叫 create_model 時，設定 ModelCacheSetting 參數來明確啟用或停用模型快取。

對於不受益於模型快取的使用案例，建議設定 ModelCacheSetting 參數的值為 Disabled。例如，當需要從端點為大量模型提供服務，但每個模型僅調用一次 (或很少使用) 時。對於這類使用案例，若設定 ModelCacheSetting 參數的值為 Disabled，則相較於預設快取模式，可提高 invoke_endpoint 請求的每秒交易數 (TPS)。在這些使用案例，TPS 較高是因為 SageMaker AI 會在 invoke_endpoint 請求之後執行下列動作：

以非同步方式從記憶體卸載模型，並在調用模型之後立即從磁碟刪除該模型。
在推論容器為下載及載入模型提供更高並行性。對於 CPU 與 GPU 支援的端點而言，並行是容器執行個體 vCPU 數目的因素之一。

如需指導方針了解如何針對多模型端點選擇 SageMaker AI 機器學習 (ML) 執行個體類型，請參閱多模型端點部署的執行個體建議。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

多模型端點部署的 CloudWatch 指標

為多模型端點部署設定自動擴展政策