

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Geração de resposta de influência com parâmetros de inferência
<a name="inference-parameters"></a>

Ao executar a inferência do modelo, é possível ajustar os parâmetros de inferência para influenciar a resposta do modelo. Os parâmetros de inferência podem alterar o conjunto de possíveis saídas que o modelo considera durante a geração ou podem limitar a resposta final.

Os valores e intervalos padrão dos parâmetros de inferência dependem do modelo. Para saber sobre os parâmetros de inferência para diversos modelos, consulte [Parâmetros de solicitação de inferência e campos de resposta para modelos de base](model-parameters.md).

As seguintes categorias de parâmetros são comumente encontradas em diferentes modelos:

**Topics**
+ [Randomização e diversidade](#inference-randomness)
+ [Tamanho](#inference-length)

## Randomização e diversidade
<a name="inference-randomness"></a>

Para qualquer sequência, um modelo determina uma distribuição de probabilidade das opções para o próximo token na sequência. Para gerar cada token em uma saída, o modelo obtém amostras dessa distribuição. A randomização e a diversidade se referem à quantidade de variação na resposta de um modelo. É possível controlar esses fatores limitando ou ajustando a distribuição. Os modelos de base geralmente são compatíveis com os parâmetros a seguir para controlar a randomização e a diversidade na resposta.
+ **Temperatura**: afeta a forma da distribuição de probabilidade da saída prevista e influencia a probabilidade de o modelo selecionar saídas de menor probabilidade.
  + Escolha um valor mais baixo para influenciar o modelo a selecionar saídas de maior probabilidade.
  + Escolha um valor mais alto para influenciar o modelo a selecionar saídas de menor probabilidade.

  Em termos técnicos, a temperatura modula a função massa de probabilidade para o próximo token. Uma temperatura mais baixa aumenta a função e ocasiona respostas mais determinísticas, enquanto uma temperatura mais alta achata a função e ocasiona respostas mais aleatórias.
+ **Top K**: o número de candidatos mais prováveis que o modelo considera para o próximo token.
  + Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.
  + Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.

  Por exemplo, se você escolher um valor de 50 para o parâmetro Top K, o modelo selecionará entre os 50 tokens com maior probabilidade de serem os próximos na sequência.
+ **Top P**: a porcentagem de candidatos mais prováveis que o modelo considera para o próximo token.
  + Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.
  + Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.

  Em termos técnicos, o modelo calcula a distribuição de probabilidade cumulativa para o conjunto de respostas e considera somente os melhores P% da distribuição.

  Por exemplo, se você escolher um valor de 0,8 para o parâmetro Top P, o modelo selecionará entre os melhores 80% da distribuição de probabilidade de tokens que podem ser os próximos na sequência.

A tabela a seguir resume os efeitos desses parâmetros.


****  

| Parâmetro | Efeito de um valor mais baixo | Efeito de um valor mais alto | 
| --- | --- | --- | 
| Temperatura | Aumenta a chance de tokens de maior probabilidade Diminui a chance de tokens de menor probabilidade | Aumenta a chance de tokens de menor probabilidadeDiminui a chance de tokens de maior probabilidade | 
| Top K | Remove os tokens de menor probabilidade | Permite os tokens de menor probabilidade | 
| Top P | Remove os tokens de menor probabilidade | Permite os tokens de menor probabilidade | 

Para entender esses parâmetros, considere o exemplo de prompt **I hear the hoof beats of "**. Digamos que o modelo determine as três palavras a seguir como candidatas ao próximo token. O modelo também atribui uma probabilidade a cada palavra.

```
{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}
```
+ Se você definir uma **temperatura** alta, a distribuição de probabilidades será nivelada e as probabilidades se tornarão menos diferentes, o que aumentará a probabilidade de escolher “unicórnios” e diminuirá a probabilidade de escolher “cavalos”.
+ Se você definir **Top K** como 2, o modelo considerará apenas os dois candidatos mais prováveis: “cavalos” e “zebras”.
+ Se você definir **Top P** como 0,7, o modelo considerará apenas “cavalos”, porque é o único candidato que está entre os 70% superiores da distribuição de probabilidades. Se você definir **Top P** como 0,9, o modelo considerará “cavalos” e “zebras”, pois eles estão nos 90% superiores da distribuição de probabilidades.

## Tamanho
<a name="inference-length"></a>

Os modelos de base geralmente oferecem suporte a parâmetros que limitam o comprimento da resposta. Exemplos desses parâmetros são fornecidos abaixo.
+ **Comprimento da resposta**: um valor exato para especificar o número mínimo ou máximo de tokens a serem retornados na resposta gerada.
+ **Penalidades**: especifique o grau com que deseja penalizar as saídas em uma resposta. Os exemplos incluem o seguinte.
  + O comprimento da resposta.
  + Tokens repetidos em uma resposta.
  + Frequência de tokens em uma resposta.
  + Tipos de tokens em uma resposta.
+ **Sequências de interrupção**: especifique sequências de caracteres que impedem o modelo de gerar mais tokens. Se o modelo gerar uma sequência de interrupção especificada por você, a geração será interrompida após essa sequência.