As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Recursos para usar o Triton Inference Server com a Amazon SageMaker
SageMaker permite que os clientes implantem um modelo usando código personalizado com o NVIDIA Triton Inference Server. Use os recursos a seguir para aprender a usar o Triton Inference Server com o. SageMaker
Essa funcionalidade está disponível por meio do desenvolvimento dos Contêineres do Triton Inference Server. Esses contêineres incluem o NVIDIA Triton Inference Server, suporte para estruturas comuns de ML e variáveis de ambiente úteis que permitem otimizar o desempenho em. SageMaker Para obter uma lista completa de todas as imagens dos Deep Learning Containers disponíveis, consulte Imagens dos Deep Learning Containers disponíveis
Você pode usar o Triton Inference Server Container com SageMaker Python SDK como faria com qualquer outro contêiner em seus modelos. SageMaker No entanto, usar o SageMaker Python SDK é opcional. Você pode usar os contêineres do Triton Inference Server com e. AWS CLI AWS SDK for Python (Boto3)
Para obter mais informações sobre o NVIDIA Triton Inference Server, consulte a documentação do Triton
Inferência
nota
O back-end Triton Python usa memória compartilhada SHMEM () para conectar seu código ao Triton. SageMaker A inferência fornece até metade da memória da instânciaSHMEM, então você pode usar uma instância com mais memória para um SHMEM tamanho maior.
Para inferência, você pode usar seus modelos de ML treinados com o Triton Inference Server para implantar um trabalho de inferência com. SageMaker
Alguns dos principais recursos do contêiner do Triton Inference Server são:
-
Compatível com vários frameworks: o Triton pode ser usado para implantar modelos de todos os principais frameworks de ML. O Triton suporta TensorFlow GraphDef e SavedModel, ONNX PyTorch TorchScript, TensorRT e formatos de modelo Python/C++ personalizados.
-
Pipelines de modelos: o conjunto de modelos Triton representa um pipeline de um modelo com lógica de pré/pós-processamento e a conexão de tensores de entrada e saída entre eles. Uma única solicitação de inferência para um conjunto aciona a execução de todo o pipeline.
-
Execução simultânea do modelo: várias instâncias do mesmo modelo podem ser executadas simultaneamente no mesmo modelo GPU ou em váriasGPUs.
-
Lotes dinâmicos: para modelos que compatíveis com os lotes, o Triton tem vários algoritmos integrados de agendamento e agrupamento em lotes que combinam solicitações de inferência individuais para melhorar a taxa de transferência da inferência. Essas decisões de agendamento e agrupamento em lotes são transparentes para o cliente que solicita a inferência.
-
CPUDiversidade e GPU suporte: os modelos podem ser executados com CPUs ou GPUs para máxima flexibilidade e para suportar requisitos de computação heterogêneos.
O que você deseja fazer?
- Quero implantar meu PyTorch modelo treinado em SageMaker.
-
Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch Resnet50 com o Triton
Inference Server. - Quero implantar meu modelo treinado do Hugging Face em. SageMaker
-
Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu PyTorch BERT modelo com o Triton Inference Server
.