

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Otimizar a inferência do modelo para latência
<a name="latency-optimized-inference"></a>

**nota**  
O recurso de inferência otimizada para latência está em versão prévia Amazon Bedrock e está sujeito a alterações.

A inferência otimizada para latência para modelos básicos Amazon Bedrock oferece tempos de resposta mais rápidos e melhor capacidade de resposta para aplicativos de IA. As versões otimizadas dos modelos [https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html), [Claude 3.5 Haiku da Anthropic](https://aws.amazon.com/bedrock/claude/) e [Llama 3.1 405B e 70B da Meta](https://aws.amazon.com/bedrock/llama/) oferecem latência significativamente reduzida sem comprometer a precisão. 

O acesso ao recurso de otimização de latência não requer configuração adicional nem ajuste fino do modelo, permitindo o aprimoramento imediato das aplicações existentes com tempos de resposta mais rápidos. Você pode definir o parâmetro “latency” como “optimized” ao chamar a API de runtime do Amazon Bedrock. Se você selecionar “standard” como opção de invocação, suas solicitações serão atendidas pela inferência padrão. Por padrão, todas as solicitações são encaminhadas com “standard”.

```
"performanceConfig" : {
    "latency" : "standard | optimized" 
}
```

Quando você atingir a cota de uso para otimização de latência de um modelo, tentaremos atender à solicitação com latência padrão. Nesses casos, a solicitação será cobrada de acordo com as taxas de latência padrão. A configuração de latência de uma solicitação atendida é visível na resposta e nos AWS CloudTrail registros da API. Você também pode visualizar métricas para solicitações otimizadas para latência nos Amazon CloudWatch registros em “model-id\$1latency-optimization”.

A inferência otimizada para latência está disponível no Llama 3.1 70B e 405B da Meta, bem como no Claude 3.5 Haiku da Anthropic nas regiões Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da [inferência entre regiões](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html).

A inferência otimizada para latência está disponível no Amazon Nova Pro nas regiões Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon) por meio da [inferência entre regiões](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html).

Para ter mais informações sobre preços, consulte a [página de preços](https://aws.amazon.com/bedrock/pricing/).

**nota**  
 No momento, a inferência otimizada para latência no Llama 3.1 405B permite solicitações com contagem total de tokens de entrada e saída de até 11 mil. Para solicitações com um número maior de tokens, voltaremos para o modo padrão. 

A tabela a seguir mostra os perfis de inferência que oferecem suporte à otimização da latência:


| Fornecedor | Modelo | ID do modelo | Suporte ao perfil de inferência entre regiões | 
| --- | --- | --- | --- | 
| Amazon | Nova Pro | amazônia. nova-pro-v1:0 |  us-east-1 us-east-2  | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-east-2 us-west-2  | 
| Meta | Llama 3.1 405B Instruct | meta.llama3-1-405 1:0 b-instruct-v |  us-east-2  | 
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70 1:0 b-instruct-v |  us-east-2 us-west-2  | 

Para obter mais informações sobre perfis de inferência, consulte [Regiões e modelos que compatíveis com perfis de inferência](inference-profiles-support.md).