As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker A IA permite que os clientes implantem um modelo usando código personalizado com o NVIDIA Triton Inference Server. Use os recursos a seguir para aprender a usar o Triton Inference Server com SageMaker IA.
Essa funcionalidade está disponível por meio do desenvolvimento dos Contêineres do Triton Inference Server. Esses contêineres incluem o NVIDIA Triton Inference Server, suporte para estruturas comuns de ML e variáveis de ambiente úteis que permitem otimizar o desempenho na IA. SageMaker Para obter uma lista completa de todas as imagens dos Contêiner de Aprendizado Profundo disponíveis, consulte Imagens dos Contêiner de Aprendizado Profundo disponíveis
Você pode usar o Triton Inference Server Container com SageMaker Python SDK como faria com qualquer outro contêiner em seus modelos de IA. SageMaker No entanto, usar o SDK do SageMaker Python é opcional. Você pode usar os contêineres do Triton Inference Server com e. AWS CLI AWS SDK para Python (Boto3)
Para obter mais informações sobre o NVIDIA Triton Inference Server, consulte a documentação do Triton
Inferência
nota
O back-end Triton Python usa memória compartilhada (SHMEM) para conectar seu código ao Triton. SageMaker O AI Inference fornece até metade da memória da instância como SHMEM para que você possa usar uma instância com mais memória para um tamanho maior de SHMEM.
Para inferência, você pode usar seus modelos de ML treinados com o Triton Inference Server para implantar um trabalho de inferência com IA. SageMaker
Alguns dos principais atributos do contêiner do Triton Inference Server são:
-
Compatível com vários frameworks: o Triton pode ser usado para implantar modelos de todos os principais frameworks de ML. O Triton suporta TensorFlow GraphDef e SavedModel, ONX, PyTorch TorchScript TensorRT e formatos de modelo Python/C++ personalizados.
-
Pipelines de modelos: o conjunto de modelos Triton representa um pipeline de um modelo com lógica de pré/pós-processamento e a conexão de tensores de entrada e saída entre eles. Uma única solicitação de inferência para um conjunto aciona a execução de todo o pipeline.
-
Execução simultânea do modelo: várias instâncias do mesmo modelo podem ser executadas simultaneamente na mesma GPU ou em várias. GPUs
-
Lotes dinâmicos: para modelos que compatíveis com os lotes, o Triton tem vários algoritmos integrados de agendamento e agrupamento em lotes que combinam solicitações de inferência individuais para melhorar a throughput da inferência. Essas decisões de agendamento e agrupamento em lotes são transparentes para o cliente que solicita a inferência.
-
Suporte diversificado para CPU e GPU: os modelos podem ser executados com CPUs ou GPUs para máxima flexibilidade e para suportar requisitos de computação heterogêneos.
O que você deseja fazer?
- Quero implantar meu PyTorch modelo treinado em SageMaker IA.
-
Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch Resnet50 com o Triton
Inference Server. - Quero implantar meu modelo treinado de Hugging Face em IA. SageMaker
-
Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch BERT com o Triton Inference Server
.