多模型端點的自訂容器合約

若要處理多個模型，您的容器必須支援一組 APIs，讓 Amazon SageMaker AI 能夠與容器通訊，以視需要載入、列出、取得和卸載模型。model_name 會用於新的 API 集，做為金鑰輸入參數。客戶容器應使用 model_name 做為對應金鑰來追蹤已載入的模型。此外，model_name 是不透明的識別符，且未必是傳遞到 InvokeEndpoint API 的 TargetModel 參數的值。InvokeEndpoint 請求中的原始 TargetModel 值會傳遞到 API 中的容器，做為可用於記錄用途的 X-Amzn-SageMaker-Target-Model 標題。

注意

只有 SageMaker AI 的 NVIDIA Triton 推論伺服器容器，目前才支援 GPU 支援執行個體的多模型端點。此容器已經實作如下定義的合同。客戶可直接搭配使用此容器與多模型 GPU 端點，無需進行任何額外工作。

您可於容器為 CPU 支援的多模型端點設定下列 API。

Load Model API

指示容器將主體 url 欄位中現有的特定模型載入到客戶容器記憶體中，並使用獲派的 model_name 進行追蹤。載入模型後，容器應該已準備就緒，可使用此 model_name 為推斷請求提供服務。


POST /models HTTP/1.1
Content-Type: application/json
Accept: application/json

{
     "model_name" : "{model_name}",
     "url" : "/opt/ml/models/{model_name}/model",
}

注意

若已載入 model_name，此 API 應傳回 409。每當模型因為記憶體不足或任何其他資源而無法載入時，此 API 應該將 507 HTTP 狀態碼傳回 SageMaker AI，然後啟動卸載未使用的模型以回收。

List Model API

傳回已載入到客戶容器的記憶體的模型清單。


GET /models HTTP/1.1
Accept: application/json

Response = 
{
    "models": [
        {
             "modelName" : "{model_name}",
             "modelUrl" : "/opt/ml/models/{model_name}/model",
        },
        {
            "modelName" : "{model_name}",
            "modelUrl" : "/opt/ml/models/{model_name}/model",
        },
        ....
    ]
}

此 API 也支援分頁。


GET /models HTTP/1.1
Accept: application/json

Response = 
{
    "models": [
        {
             "modelName" : "{model_name}",
             "modelUrl" : "/opt/ml/models/{model_name}/model",
        },
        {
            "modelName" : "{model_name}",
            "modelUrl" : "/opt/ml/models/{model_name}/model",
        },
        ....
    ]
}

SageMaker AI 最初可以呼叫 List Models API，而不需要提供的值next_page_token。如果回應中傳回了 nextPageToken 欄位，則會提供該欄位做為後續 List Models 呼叫中 next_page_token 的值。若未傳回 nextPageToken，則表示沒有其他要傳回的模型。

Get Model API

這是 model_name 實體上的簡易讀取 API。



GET /models/{model_name} HTTP/1.1
Accept: application/json

{
     "modelName" : "{model_name}",
     "modelUrl" : "/opt/ml/models/{model_name}/model",
}

注意

若未載入 model_name，此 API 應傳回 404。

Unload Model API

指示 SageMaker AI 平台指示客戶容器從記憶體卸載模型。這會根據平台在開始載入新模型程序時的判斷，發起移出候選模型。當此 API 傳回回應時，佈建到 model_name 的資源應由容器重新取得。


DELETE /models/{model_name}

注意

若未載入 model_name，此 API 應傳回 404。

調用模型 API

從提供的特定 model_name 提出預測請求。SageMaker AI Runtime InvokeEndpoint請求支援 X-Amzn-SageMaker-Target-Model 做為新標頭，以採用指定用於調用之模型的相對路徑。SageMaker AI 系統會將 CreateModel API 呼叫中提供的字首與模型的相對路徑結合，以建構模型的絕對路徑。


POST /models/{model_name}/invoke HTTP/1.1
Content-Type: ContentType
Accept: Accept
X-Amzn-SageMaker-Custom-Attributes: CustomAttributes
X-Amzn-SageMaker-Target-Model: [relativePath]/{artifactName}.tar.gz

注意

若未載入 model_name，此 API 應傳回 404。

此外，在 GPU 執行個體上，如果由於記憶體或其他資源不足而InvokeEndpoint失敗，此 API 應該會傳回 507 HTTP 狀態碼給 SageMaker AI，然後啟動卸載未使用的模型以回收。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用自有容器

安全