Real-time inferência

Real-time a inferência é ideal para cargas de trabalho de inferência em que você tem requisitos em tempo real, interativos e de baixa latência. Você pode implantar seu modelo em serviços de hospedagem de SageMaker IA e obter um endpoint que pode ser usado para inferência. Esses endpoints são totalmente gerenciados e oferecem suporte ao escalonamento automático (consulte Escalabilidade automática dos modelos de SageMaker IA da Amazon). Você pode monitorar instâncias e contêineres individuais em seus endpoints com métricas aprimoradas (consulteMétricas aprimoradas da Amazon SageMaker AI para endpoints de inferência).

Tópicos

Implantar modelos para inferência em tempo real
Invocar modelos para inferência em tempo real
Invoque endpoints com APIs OpenAI-compatible
Endpoints
Opções de hospedagem
Escalabilidade automática dos modelos de SageMaker IA da Amazon
volumes do armazenamento de instâncias
Validação de modelos em produção
Explicabilidade on-line com Clarify SageMaker
Implemente em vários tipos de instância com grupos de instâncias
Fine-tune modelos com componentes de inferência de adaptador

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solucionar erros do recomendador de inferência

Implantar modelos