Otimizar a inferência do modelo para latência

nota

O recurso de inferência otimizada para latência está em versão prévia Amazon Bedrock e está sujeito a alterações.

Latency-optimized a inferência para modelos básicos Amazon Bedrock oferece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicativos de IA. As versões otimizadas dos modelos Amazon Nova Pro, Claude 3.5 Haiku da Anthropic e Llama 3.1 405B e 70B da Meta oferecem latência significativamente reduzida sem comprometer a precisão.

O acesso ao recurso de otimização de latência não requer configuração adicional nem ajuste fino do modelo, permitindo o aprimoramento imediato das aplicações existentes com tempos de resposta mais rápidos. Você pode definir o parâmetro “latency” como “optimized” ao chamar a API de runtime do Amazon Bedrock. Se você selecionar “standard” como opção de invocação, suas solicitações serão atendidas pela inferência padrão. Por padrão, todas as solicitações são encaminhadas com “standard”.


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

Quando você atingir a cota de uso para otimização de latência de um modelo, tentaremos atender à solicitação com latência padrão. Nesses casos, a solicitação será cobrada de acordo com as taxas de latência padrão. A configuração de latência de uma solicitação atendida é visível na resposta e nos AWS CloudTrail registros da API. Você também pode visualizar métricas para solicitações otimizadas para latência nos Amazon CloudWatch registros em “model-id+latency-optimization”.

A inferência otimizada para latência está disponível no Llama 3.1 70B e 405B da Meta, bem como no Claude 3.5 Haiku da Anthropic nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

A inferência otimizada para latência está disponível no Amazon Nova Pro nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da inferência entre regiões.

Para ter mais informações sobre preços, consulte a página de preços.

nota

No momento, a inferência otimizada para latência no Llama 3.1 405B permite solicitações com contagem total de tokens de entrada e saída de até 11 mil. Para solicitações com um número maior de tokens, voltaremos para o modo padrão.

A tabela a seguir mostra os perfis de inferência que oferecem suporte à otimização da latência:

Fornecedor	Modelo	ID do modelo	Cross-region suporte ao perfil de inferência
Amazon	Nova Pro	amazon.nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	meta.llama3-1-405b-instruct-v1:0	us-east-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-east-2 us-west-2

Para obter mais informações sobre perfis de inferência, consulte Regiões e modelos que compatíveis com perfis de inferência.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Raciocínio de inferência

Regiões e modelos compatíveis