Parâmetros de inferência - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Parâmetros de inferência

Os parâmetros de inferência são valores que podem ser ajustados para limitar ou influenciar a resposta do modelo. As categorias de parâmetros a seguir são comumente encontradas em diferentes modelos.

Aleatoriedade e diversidade

Para qualquer sequência, um modelo determina uma distribuição de probabilidade das opções para o próximo token na sequência. Para gerar cada token em uma saída, o modelo obtém amostras dessa distribuição. A aleatoriedade e a diversidade se referem à quantidade de variação na resposta de um modelo. Você pode controlar esses fatores limitando ou ajustando a distribuição. Os modelos de base geralmente são compatíveis com os parâmetros a seguir para controlar a aleatoriedade e a diversidade na resposta.

  • Temperatura: afeta a forma da distribuição de probabilidade da saída prevista e influencia a probabilidade de o modelo selecionar saídas de menor probabilidade.

    • Escolha um valor mais baixo para influenciar o modelo a selecionar saídas de maior probabilidade.

    • Escolha um valor mais alto para influenciar o modelo a selecionar saídas de menor probabilidade.

    Em termos técnicos, a temperatura modula a função massa de probabilidade para o próximo token. Uma temperatura mais baixa aumenta a função e ocasiona respostas mais determinísticas, enquanto uma temperatura mais alta achata a função e ocasiona respostas mais aleatórias.

  • Top K: o número de candidatos mais prováveis que o modelo considera para o próximo token.

    • Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.

    • Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.

    Por exemplo, se você escolher um valor de 50 para o parâmetro Top K, o modelo selecionará entre os 50 tokens com maior probabilidade de serem os próximos na sequência.

  • Top P: o porcentagem de candidatos mais prováveis que o modelo considera para o próximo token.

    • Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.

    • Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.

    Em termos técnicos, o modelo calcula a distribuição de probabilidade cumulativa para o conjunto de respostas e considera somente os melhores P% da distribuição.

    Por exemplo, se você escolher um valor de 0,8 para o parâmetro Top P, o modelo selecionará entre os melhores 80% da distribuição de probabilidade de tokens que podem ser os próximos na sequência.

A tabela a seguir resume os efeitos desses parâmetros.

Parâmetro Efeito de um valor mais baixo Efeito de um valor mais alto
Temperatura Aumenta a chance de tokens de maior probabilidade

Diminui a chance de tokens de menor probabilidade

Aumenta a chance de tokens de menor probabilidade

Diminui a chance de tokens de maior probabilidade

Top K Remove os tokens de menor probabilidade Permite os tokens de menor probabilidade
Top P Remove os tokens de menor probabilidade Permite os tokens de menor probabilidade

Para entender esses parâmetros, considere o exemplo de prompt I hear the hoof beats of ". Digamos que o modelo determine as três palavras a seguir como candidatas ao próximo token. O modelo também atribui uma probabilidade a cada palavra.

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • Se você definir uma temperatura alta, a distribuição de probabilidade será achatada e as probabilidades se tornarão menos diferentes, o que aumentará a probabilidade de escolher “unicórnios” e diminuirá a probabilidade de escolher “cavalos”.

  • Se você definir o Top K como 2, o modelo considerará apenas os dois candidatos mais prováveis: “cavalos” e “zebras”.

  • Se você definir o Top P como 0,7, o modelo considerará apenas “cavalos”, porque é o único candidato que está entre os melhores 70% da distribuição de probabilidade.

Length

Os modelos de base geralmente oferecem suporte a parâmetros que limitam o comprimento da resposta. Exemplos desses parâmetros são fornecidos abaixo.

  • Comprimento da resposta: um valor exato para especificar o número mínimo ou máximo de tokens a serem retornados na resposta gerada.

  • Penalidades: especifique o grau com que deseja penalizar as saídas em uma resposta. Os exemplos incluem.

    • O comprimento da resposta.

    • Tokens repetidos em uma resposta.

    • Frequência de tokens em uma resposta.

    • Tipos de tokens em uma resposta.

  • Sequências de interrupção: especifique sequências de caracteres que impedem o modelo de gerar mais tokens. Se o modelo gerar uma sequência de interrupção especificada por você, a geração será interrompida após essa sequência.