Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Recursos para usar o Triton Inference Server com a Amazon AI SageMaker

Modo de foco
Recursos para usar o Triton Inference Server com a Amazon AI SageMaker - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker A IA permite que os clientes implantem um modelo usando código personalizado com o NVIDIA Triton Inference Server. Use os recursos a seguir para aprender a usar o Triton Inference Server com SageMaker IA.

Essa funcionalidade está disponível por meio do desenvolvimento dos Contêineres do Triton Inference Server. Esses contêineres incluem o NVIDIA Triton Inference Server, suporte para estruturas comuns de ML e variáveis de ambiente úteis que permitem otimizar o desempenho na IA. SageMaker Para obter uma lista completa de todas as imagens dos Contêiner de Aprendizado Profundo disponíveis, consulte Imagens dos Contêiner de Aprendizado Profundo disponíveis. As imagens dos Contêiner de Aprendizado Profundo são mantidas e atualizadas regularmente com patches de segurança.

Você pode usar o Triton Inference Server Container com SageMaker Python SDK como faria com qualquer outro contêiner em seus modelos de IA. SageMaker No entanto, usar o SDK do SageMaker Python é opcional. Você pode usar os contêineres do Triton Inference Server com e. AWS CLI AWS SDK para Python (Boto3)

Para obter mais informações sobre o NVIDIA Triton Inference Server, consulte a documentação do Triton.

Inferência

nota

O back-end Triton Python usa memória compartilhada (SHMEM) para conectar seu código ao Triton. SageMaker O AI Inference fornece até metade da memória da instância como SHMEM para que você possa usar uma instância com mais memória para um tamanho maior de SHMEM.

Para inferência, você pode usar seus modelos de ML treinados com o Triton Inference Server para implantar um trabalho de inferência com IA. SageMaker

Alguns dos principais atributos do contêiner do Triton Inference Server são:

  • Compatível com vários frameworks: o Triton pode ser usado para implantar modelos de todos os principais frameworks de ML. O Triton suporta TensorFlow GraphDef e SavedModel, ONX, PyTorch TorchScript TensorRT e formatos de modelo Python/C++ personalizados.

  • Pipelines de modelos: o conjunto de modelos Triton representa um pipeline de um modelo com lógica de pré/pós-processamento e a conexão de tensores de entrada e saída entre eles. Uma única solicitação de inferência para um conjunto aciona a execução de todo o pipeline.

  • Execução simultânea do modelo: várias instâncias do mesmo modelo podem ser executadas simultaneamente na mesma GPU ou em várias. GPUs

  • Lotes dinâmicos: para modelos que compatíveis com os lotes, o Triton tem vários algoritmos integrados de agendamento e agrupamento em lotes que combinam solicitações de inferência individuais para melhorar a throughput da inferência. Essas decisões de agendamento e agrupamento em lotes são transparentes para o cliente que solicita a inferência.

  • Suporte diversificado para CPU e GPU: os modelos podem ser executados com CPUs ou GPUs para máxima flexibilidade e para suportar requisitos de computação heterogêneos.

O que você deseja fazer?

Quero implantar meu PyTorch modelo treinado em SageMaker IA.

Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch Resnet50 com o Triton Inference Server.

Quero implantar meu modelo treinado de Hugging Face em IA. SageMaker

Para ver uma amostra do Jupyter Notebook, consulte o exemplo Implante seu modelo PyTorch BERT com o Triton Inference Server.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.