Recursos para usar o Triton Inference Server com a Amazon AI SageMaker

Modo de foco

Recursos para usar o Triton Inference Server com a Amazon AI SageMaker - SageMaker IA da Amazon

SageMaker A IA permite que os clientes implantem um modelo usando código personalizado com o NVIDIA Triton Inference Server. Use os recursos a seguir para aprender a usar o Triton Inference Server com SageMaker IA.

Essa funcionalidade está disponível por meio do desenvolvimento dos Contêineres do Triton Inference Server. Esses contêineres incluem o NVIDIA Triton Inference Server, suporte para estruturas comuns de ML e variáveis de ambiente úteis que permitem otimizar o desempenho na IA. SageMaker Para obter uma lista completa de todas as imagens dos Contêiner de Aprendizado Profundo disponíveis, consulte Imagens dos Contêiner de Aprendizado Profundo disponíveis. As imagens dos Contêiner de Aprendizado Profundo são mantidas e atualizadas regularmente com patches de segurança.

Você pode usar o Triton Inference Server Container com SageMaker Python SDK como faria com qualquer outro contêiner em seus modelos de IA. SageMaker No entanto, usar o SDK do SageMaker Python é opcional. Você pode usar os contêineres do Triton Inference Server com e. AWS CLI AWS SDK para Python (Boto3)

Para obter mais informações sobre o NVIDIA Triton Inference Server, consulte a documentação do Triton.

Inferência

nota

O back-end Triton Python usa memória compartilhada (SHMEM) para conectar seu código ao Triton. SageMaker O AI Inference fornece até metade da memória da instância como SHMEM para que você possa usar uma instância com mais memória para um tamanho maior de SHMEM.

Para inferência, você pode usar seus modelos de ML treinados com o Triton Inference Server para implantar um trabalho de inferência com IA. SageMaker

Alguns dos principais atributos do contêiner do Triton Inference Server são:

Compatível com vários frameworks: o Triton pode ser usado para implantar modelos de todos os principais frameworks de ML. O Triton suporta TensorFlow GraphDef e SavedModel, ONX, PyTorch TorchScript TensorRT e formatos de modelo Python/C++ personalizados.
Pipelines de modelos: o conjunto de modelos Triton representa um pipeline de um modelo com lógica de pré/pós-processamento e a conexão de tensores de entrada e saída entre eles. Uma única solicitação de inferência para um conjunto aciona a execução de todo o pipeline.
Execução simultânea do modelo: várias instâncias do mesmo modelo podem ser executadas simultaneamente na mesma GPU ou em várias. GPUs
Lotes dinâmicos: para modelos que compatíveis com os lotes, o Triton tem vários algoritmos integrados de agendamento e agrupamento em lotes que combinam solicitações de inferência individuais para melhorar a throughput da inferência. Essas decisões de agendamento e agrupamento em lotes são transparentes para o cliente que solicita a inferência.
Suporte diversificado para CPU e GPU: os modelos podem ser executados com CPUs ou GPUs para máxima flexibilidade e para suportar requisitos de computação heterogêneos.

O que você deseja fazer?

Quero implantar meu PyTorch modelo treinado em SageMaker IA.: Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch Resnet50 com o Triton Inference Server.
Quero implantar meu modelo treinado de Hugging Face em IA. SageMaker: Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch BERT com o Triton Inference Server.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

TensorFlow

Referência da API

Próximo tópico:

Referência da API

Tópico anterior:

TensorFlow

Precisa de ajuda?

Nesta página

Selecione suas preferências de cookies