Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos

Para obter informações sobre os algoritmos, frameworks e tipos de instância que você pode usar com endpoints multi-modelo, consulte as seguintes seções.

Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos usando instâncias apoiadas CPU

Os contêineres de inferência para os seguintes algoritmos e frameworks oferecem suporte a endpoints de vários modelos:

Para usar qualquer outra estrutura ou algoritmo, use o kit de ferramentas de SageMaker inferência para criar um contêiner que ofereça suporte a endpoints de vários modelos. Para ter mais informações, consulte Crie seu próprio contêiner para endpoints SageMaker de vários modelos.

Os endpoints de vários modelos oferecem suporte a todos os tipos de CPU instância.

Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos usando instâncias apoiadas GPU

A hospedagem de vários modelos com GPU suporte em endpoints de vários modelos é suportada pelo servidor SageMaker Triton Inference. Isso suporta todas as principais estruturas de inferência, como® NVIDIA TensorRT™,,, MXNet Python,, PyTorch, scikit-learn, Open ONNXXGBoost, C++ personalizado e muito mais. RandomForest VINO

Para utilizar qualquer outro framework ou algoritmo, você pode usar o backend Triton para Python ou C++ para escrever a lógica do seu modelo e servir qualquer modelo personalizado. Após ter o servidor pronto, você pode começar a implantar centenas de modelos de aprendizado profundo por trás de um único endpoint.

Os endpoints multimodelo oferecem suporte aos seguintes tipos de GPU instância:

Família de instâncias Tipo de instância vCPUs GiB de memória por v CPU GPUs GPUmemória

p2

ml.p2.xlarge

4

15.25

1

12

p3

ml.p3.2xlarge

8

7,62

1

16

g5

ml.g5.xlarge

4

4

1

24

g5

ml.g5.2xlarge

8

4

1

24

g5

ml.g5.4xlarge

16

4

1

24

g5

ml.g5.8xlarge

32

4

1

24

g5

ml.g5.16xlarge

64

4

1

24

g4dn

ml.g4dn.xlarge

4

4

1

16

g4dn

ml.g4dn.2xlarge

8

4

1

16

g4dn

ml.g4dn.4xlarge

16

4

1

16

g4dn

ml.g4dn.8xlarge

32

4

1

16

g4dn

ml.g4dn.16xlarge

64

4

1

16