在CPU支援的執行個體上為多模型端點攜帶您自己的相依性在GPU支援的執行個體上為多模型端點攜帶您自己的相依性使用 SageMaker 推論工具組

為 SageMaker多模型端點建置自己的容器

請參閱以下各節了解如何針對多模型端點使用自有容器及相依性。

主題

在CPU支援的執行個體上為多模型端點攜帶您自己的相依性
在GPU支援的執行個體上為多模型端點攜帶您自己的相依性
使用 SageMaker 推論工具組
多模型端點的自訂容器合約

在CPU支援的執行個體上為多模型端點攜帶您自己的相依性

如果任何預先建置的容器映像都無法滿足您的需求，您可以建置自己的容器，以搭配CPU支援的多模型端點使用。

部署在 Amazon 中的自訂 Amazon Elastic Container Registry （Amazon ECR）映像 SageMaker 應遵循所述的基本合約使用 Hosting Services 的自訂推論程式碼，該合約會管理如何與執行您自己的推論程式碼的 Docker 容器 SageMaker 互動。若要讓容器能夠同時載入及服務多個模型，必須遵循其他 APIs和行為。此額外合約包括新APIs載入、列出、取得和卸載模型，以及API與調用模型不同的。也有一些不同的錯誤案例行為APIs需要遵守。若要表示容器符合額外的要求，您可以將下列命令新增到 Docker 檔案：


LABEL com.amazonaws.sagemaker.capabilities.multi-models=true

SageMaker 也會將環境變數注入容器


SAGEMAKER_MULTI_MODEL=true

如果您要為序列推論管道建立多模型端點，則 Docker 檔案必須具有多模型和序列推論管道所需的標籤。如需序列資訊管道的詳細資訊，請參閱使用推論管道執行即時預測。

為協助您實作自訂容器的這些要求，提供下列兩個程式庫：

多模型伺服器是一種開放原始碼架構，用於提供可安裝在容器中的機器學習模型，以提供前端，以滿足新的多模型端點容器的需求APIs。它提供多模型端點所需的HTTP前端和模型管理功能，以託管單一容器內的多個模型、動態載入模型到容器並卸載模型，並在指定的載入模型上執行推論。它還提供了隨插即用的後端，支援隨插即用的自訂後端處理常式，可讓您實作自己的演算法。
SageMaker 推論工具組是一個程式庫，可啟動具有組態和設定的多模型伺服器，使其與 SageMaker 多模型端點相容。也可讓您根據不同的情境需求調校重要效能參數，例如每個模型的工作者數量。

在GPU支援的執行個體上為多模型端點攜帶您自己的相依性

多模型伺服器和推論工具組程式庫目前不支援在具有GPU備份執行個體的多模型端點上自備容器（BYOC） SageMaker 功能。

若要使用GPU支援的執行個體建立多模型端點，您可以將支援的 NVIDIA Triton 推論伺服器 . 與 NVIDIA Triton 推論容器搭配使用 SageMaker。若要將您自己的相依性帶入 Docker 檔案，您可以使用 SageMaker 支援的 NVIDIA Triton 推論伺服器建置自己的容器作為基礎映像：


FROM 301217895009.dkr.ecr.us-west-2.amazonaws.com/sagemaker-tritonserver:22.07-py3

重要

具有 Triton Inference Server 的容器是唯一支援用於GPU支援多模型端點的容器。

使用 SageMaker 推論工具組

注意

SageMaker 推論工具組僅支援CPU支援的多模型端點。 SageMaker 推論工具組目前不支援GPU支援的多模型端點。

多模型端點支援的演算法、架構和執行個體列出支援多模型端點的預先建置容器。如果你想要使用其他任何架構或演算法，則需要建置容器。最簡單的方法是使用SageMaker 推論工具組來擴展現有的預先建置容器。 SageMaker 推論工具組是多模型伺服器（MMS）的實作，可建立可在中部署的端點 SageMaker。如需示範如何在中設定和部署支援多模型端點的自訂容器的範例筆記本 SageMaker，請參閱多模型端點BYOC範例筆記本。

注意

SageMaker 推論工具組僅支援 Python 模型處理常式。如果您想要以任何其他語言實作您的處理常式，則必須建置自己的容器來實作額外的多模型端點 APIs。如需相關資訊，請參閱多模型端點的自訂容器合約。

使用 SageMaker 推論工具組擴充容器

建立模型處理常式。MMS 預期模型處理常式，這是一個 Python 檔案，可實作要預先處理的函數、從模型取得引號，以及處理模型處理常式中的輸出。如需模型處理常式的範例，請參閱範例筆記本中的 model_handler.py。

匯入推論工具組，並使用其model_server.start_model_server函數啟動 MMS。下列範例來自範例筆記本中的 dockerd-entrypoint.py 檔案。請注意，呼叫 model_server.start_model_server 會傳遞上一個步驟中描述的模型處理常式：


import subprocess
import sys
import shlex
import os
from retrying import retry
from subprocess import CalledProcessError
from sagemaker_inference import model_server

def _retry_if_error(exception):
    return isinstance(exception, CalledProcessError or OSError)

@retry(stop_max_delay=1000 * 50,
       retry_on_exception=_retry_if_error)
def _start_mms():
    # by default the number of workers per model is 1, but we can configure it through the
    # environment variable below if desired.
    # os.environ['SAGEMAKER_MODEL_SERVER_WORKERS'] = '2'
    model_server.start_model_server(handler_service='/home/model-server/model_handler.py:handle')

def main():
    if sys.argv[1] == 'serve':
        _start_mms()
    else:
        subprocess.check_call(shlex.split(' '.join(sys.argv[1:])))

    # prevent docker exit
    subprocess.call(['tail', '-f', '/dev/null'])
    
main()

在 Dockerfile 中，複製第一個步驟中的模型處理常式，並將上一個步驟中的 Python 檔案指定為 Dockerfile 中的進入點。下列幾行來自範例筆記本中使用的 Dockerfile：


# Copy the default custom service file to handle incoming data and inference requests
COPY model_handler.py /home/model-server/model_handler.py

# Define an entrypoint script for the docker image
ENTRYPOINT ["python", "/usr/local/bin/dockerd-entrypoint.py"]

建置並註冊容器。範例筆記本中有下列殼層指令碼，可建置容器，並上傳到您 AWS 帳戶的 Amazon Elastic Container Registry 儲存庫：


%%sh

# The name of our algorithm
algorithm_name=demo-sagemaker-multimodel

cd container

account=$(aws sts get-caller-identity --query Account --output text)

# Get the region defined in the current configuration (default to us-west-2 if none defined)
region=$(aws configure get region)
region=${region:-us-west-2}

fullname="${account}.dkr.ecr.${region}.amazonaws.com/${algorithm_name}:latest"

# If the repository doesn't exist in ECR, create it.
aws ecr describe-repositories --repository-names "${algorithm_name}" > /dev/null 2>&1

if [ $? -ne 0 ]
then
    aws ecr create-repository --repository-name "${algorithm_name}" > /dev/null
fi

# Get the login command from ECR and execute it directly
$(aws ecr get-login --region ${region} --no-include-email)

# Build the docker image locally with the image name and then push it to ECR
# with the full name.

docker build -q -t ${algorithm_name} .
docker tag ${algorithm_name} ${fullname}

docker push ${fullname}

您現在可以使用此容器在中部署多模型端點 SageMaker。

主題

多模型端點的自訂容器合約

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

新增或移除模型

API 容器合約