As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos
Para obter informações sobre os algoritmos, frameworks e tipos de instância que você pode usar com endpoints multi-modelo, consulte as seguintes seções.
Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos usando instâncias apoiadas CPU
Os contêineres de inferência para os seguintes algoritmos e frameworks oferecem suporte a endpoints de vários modelos:
Para usar qualquer outra estrutura ou algoritmo, use o kit de ferramentas de SageMaker inferência para criar um contêiner que ofereça suporte a endpoints de vários modelos. Para ter mais informações, consulte Crie seu próprio contêiner para endpoints SageMaker de vários modelos.
Os endpoints de vários modelos oferecem suporte a todos os tipos de CPU instância.
Algoritmos, estruturas e instâncias compatíveis para endpoints de vários modelos usando instâncias apoiadas GPU
A hospedagem de vários modelos com GPU suporte em endpoints de vários modelos é suportada pelo servidor SageMaker Triton Inference. Isso suporta todas as principais estruturas de inferência, como® NVIDIA TensorRT™,,, MXNet Python,, PyTorch, scikit-learn, Open ONNXXGBoost, C++ personalizado e muito mais. RandomForest VINO
Para utilizar qualquer outro framework ou algoritmo, você pode usar o backend Triton para Python ou C++ para escrever a lógica do seu modelo e servir qualquer modelo personalizado. Após ter o servidor pronto, você pode começar a implantar centenas de modelos de aprendizado profundo por trás de um único endpoint.
Os endpoints multimodelo oferecem suporte aos seguintes tipos de GPU instância:
Família de instâncias | Tipo de instância | vCPUs | GiB de memória por v CPU | GPUs | GPUmemória |
---|---|---|---|---|---|
p2 |
ml.p2.xlarge |
4 |
15.25 |
1 |
12 |
p3 |
ml.p3.2xlarge |
8 |
7,62 |
1 |
16 |
g5 |
ml.g5.xlarge |
4 |
4 |
1 |
24 |
g5 |
ml.g5.2xlarge |
8 |
4 |
1 |
24 |
g5 |
ml.g5.4xlarge |
16 |
4 |
1 |
24 |
g5 |
ml.g5.8xlarge |
32 |
4 |
1 |
24 |
g5 |
ml.g5.16xlarge |
64 |
4 |
1 |
24 |
g4dn |
ml.g4dn.xlarge |
4 |
4 |
1 |
16 |
g4dn |
ml.g4dn.2xlarge |
8 |
4 |
1 |
16 |
g4dn |
ml.g4dn.4xlarge |
16 |
4 |
1 |
16 |
g4dn |
ml.g4dn.8xlarge |
32 |
4 |
1 |
16 |
g4dn |
ml.g4dn.16xlarge |
64 |
4 |
1 |
16 |