Influencie a geração de respostas com parâmetros de inferência

Ao executar a inferência do modelo, você pode ajustar os parâmetros de inferência para influenciar a resposta do modelo. Os parâmetros de inferência podem alterar o conjunto de possíveis saídas que o modelo considera durante a geração ou podem limitar a resposta final. Para saber mais sobre os parâmetros de inferência para modelos diferentes, consulteParâmetros de solicitação de inferência e campos de resposta para modelos básicos.

As seguintes categorias de parâmetros são comumente encontradas em diferentes modelos:

Aleatoriedade e diversidade

Para qualquer sequência, um modelo determina uma distribuição de probabilidade das opções para o próximo token na sequência. Para gerar cada token em uma saída, o modelo obtém amostras dessa distribuição. A aleatoriedade e a diversidade se referem à quantidade de variação na resposta de um modelo. Você pode controlar esses fatores limitando ou ajustando a distribuição. Os modelos de base geralmente são compatíveis com os parâmetros a seguir para controlar a aleatoriedade e a diversidade na resposta.

Temperatura: afeta a forma da distribuição de probabilidade da saída prevista e influencia a probabilidade de o modelo selecionar saídas de menor probabilidade.
- Escolha um valor mais baixo para influenciar o modelo a selecionar saídas de maior probabilidade.
- Escolha um valor mais alto para influenciar o modelo a selecionar saídas de menor probabilidade.
Em termos técnicos, a temperatura modula a função massa de probabilidade para o próximo token. Uma temperatura mais baixa aumenta a função e ocasiona respostas mais determinísticas, enquanto uma temperatura mais alta achata a função e ocasiona respostas mais aleatórias.
Top K: o número de candidatos mais prováveis que o modelo considera para o próximo token.
- Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.
- Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.
Por exemplo, se você escolher um valor de 50 para o parâmetro Top K, o modelo selecionará entre os 50 tokens com maior probabilidade de serem os próximos na sequência.
Top P: o porcentagem de candidatos mais prováveis que o modelo considera para o próximo token.
- Escolha um valor mais baixo para diminuir o tamanho do grupo e limitar as opções às saídas mais prováveis.
- Escolha um valor mais alto para aumentar o tamanho do grupo e permitir que o modelo considere saídas menos prováveis.
Em termos técnicos, o modelo calcula a distribuição de probabilidade cumulativa para o conjunto de respostas e considera somente os melhores P% da distribuição.

Por exemplo, se você escolher um valor de 0,8 para o parâmetro Top P, o modelo selecionará entre os melhores 80% da distribuição de probabilidade de tokens que podem ser os próximos na sequência.

A tabela a seguir resume os efeitos desses parâmetros.

Parâmetro	Efeito de um valor mais baixo	Efeito de um valor mais alto
Temperatura	Aumenta a chance de tokens de maior probabilidade Diminui a chance de tokens de menor probabilidade	Aumenta a chance de tokens de menor probabilidade Diminui a chance de tokens de maior probabilidade
Top K	Remove os tokens de menor probabilidade	Permite os tokens de menor probabilidade
Top P	Remove os tokens de menor probabilidade	Permite os tokens de menor probabilidade

Para entender esses parâmetros, considere o exemplo de prompt I hear the hoof beats of ". Digamos que o modelo determine as três palavras a seguir como candidatas ao próximo token. O modelo também atribui uma probabilidade a cada palavra.


{
    "horses": 0.7,
    "zebras": 0.2,
    "unicorns": 0.1
}

Se você definir uma temperatura alta, a distribuição de probabilidade será achatada e as probabilidades se tornarão menos diferentes, o que aumentará a probabilidade de escolher “unicórnios” e diminuirá a probabilidade de escolher “cavalos”.
Se você definir o Top K como 2, o modelo considerará apenas os dois candidatos mais prováveis: “cavalos” e “zebras”.
Se você definir Top P como 0,7, o modelo considerará apenas “cavalos” porque é o único candidato que está entre os 70% superiores da distribuição de probabilidade. Se você definir o Top P como 0,9, o modelo considerará “cavalos” e “zebras”, pois eles estão nos 90% superiores da distribuição de probabilidade.

Length

Os modelos de base geralmente oferecem suporte a parâmetros que limitam o comprimento da resposta. Exemplos desses parâmetros são fornecidos abaixo.

Comprimento da resposta: um valor exato para especificar o número mínimo ou máximo de tokens a serem retornados na resposta gerada.
Penalidades: especifique o grau com que deseja penalizar as saídas em uma resposta. Os exemplos incluem.
- O comprimento da resposta.
- Tokens repetidos em uma resposta.
- Frequência de tokens em uma resposta.
- Tipos de tokens em uma resposta.
Sequências de interrupção: especifique sequências de caracteres que impedem o modelo de gerar mais tokens. Se o modelo gerar uma sequência de interrupção especificada por você, a geração será interrompida após essa sequência.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Envie solicitações e gere respostas com inferência de modelo

Gere respostas em uma interface visual usando playgrounds