Influencia sobre la generación de respuestas con parámetros de inferencia - Amazon Bedrock

Influencia sobre la generación de respuestas con parámetros de inferencia

Al ejecutar la inferencia del modelo, se pueden ajustar los parámetros de inferencia para influir en la respuesta del modelo. Los parámetros de inferencia pueden cambiar el conjunto de posibles salidas que el modelo considera durante la generación o pueden limitar la respuesta final. Para obtener más información sobre los parámetros de inferencia de los diferentes modelos, consulte Parámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales.

Las siguientes categorías de parámetros suelen encontrarse en diferentes modelos:

Asignación al azar y diversidad

Para cualquier secuencia dada, un modelo determina una distribución de probabilidad de las opciones para el siguiente token de la secuencia. Para generar cada token en una salida, el modelo toma muestras de esta distribución. La asignación al azar y la diversidad se refieren a la cantidad de variación en la respuesta de un modelo. Puede controlar estos factores limitando o ajustando la distribución. Los modelos fundacionales suelen admitir los siguientes parámetros para controlar la asignación al azar y la diversidad de la respuesta.

  • Temperatura: afecta a la forma de la distribución de la probabilidad de la salida prevista e influye en la probabilidad de que el modelo seleccione salidas con una menor probabilidad.

    • Elija un valor más bajo para influir en el modelo y que seleccione salidas de mayor probabilidad.

    • Elija un valor más alto para influir en el modelo y que seleccione salidas de menor probabilidad.

    En términos técnicos, la temperatura modula la función de masa de probabilidad para el siguiente token. Una temperatura más baja aumenta la pendiente de la función y produce respuestas más deterministas, y una temperatura más alta aplana la función y genera respuestas más aleatorias.

  • K superior: el número de candidatos más probables que el modelo considera para el siguiente token.

    • Elija un valor más bajo para reducir el tamaño del conjunto y limitar las opciones a los resultados más probables.

    • Elija un valor más alto para aumentar el tamaño del conjunto y permitir que el modelo tenga en cuenta resultados menos probables.

    Por ejemplo, si selecciona un valor de 50 para K superior, el modelo selecciona entre los 50 tokens más probables que podrían ser los siguientes en la secuencia.

  • P superior: porcentaje de candidatos más probables que el modelo considera para el siguiente token.

    • Elija un valor más bajo para reducir el tamaño del conjunto y limitar las opciones a los resultados más probables.

    • Elija un valor más alto para aumentar el tamaño del conjunto y permitir que el modelo tenga en cuenta resultados menos probables.

    En términos técnicos, el modelo calcula la distribución probabilística acumulada para el conjunto de respuestas y tiene en cuenta solo el P % superior de la distribución.

    Por ejemplo, si selecciona un valor de 0,8 para P superior, el modelo selecciona entre el 80 % superior en la probabilidad de distribución de tokens que podrían ser los siguientes en la secuencia.

En la siguiente tabla se resumen los efectos de estos parámetros.

Parámetro Efecto de un valor inferior Efecto de un valor superior
Temperatura Aumentar la probabilidad de que aparezcan tokens de mayor probabilidad

Reducir la probabilidad de que aparezcan tokens de menor probabilidad

Aumentar la probabilidad de que aparezcan tokens de menor probabilidad

Reducir la probabilidad de que aparezcan tokens de mayor probabilidad

K superior Eliminar los tokens de menor probabilidad Permitir los tokens de menor probabilidad
Top P Eliminar los tokens de menor probabilidad Permitir los tokens de menor probabilidad

Como ejemplo para entender estos parámetros, observe la petición de ejemplo I hear the hoof beats of ". Supongamos que el modelo determina que las siguientes tres palabras son candidatas para el siguiente token. El modelo también asigna una probabilidad a cada palabra.

{ "horses": 0.7, "zebras": 0.2, "unicorns": 0.1 }
  • Si establece una temperatura alta, la distribución de probabilidad se aplana y las probabilidades se vuelven menos diferentes, lo que aumentaría la probabilidad de elegir “unicorns” y disminuiría la probabilidad de elegir “horses”.

  • Si establece K superior como 2, el modelo solo considera a los dos candidatos más probables: “horses” y “zebras”.

  • Si establece P superior en 0,7, el modelo solo considera “horses”, ya que es el único candidato que se encuentra en el 70 % superior de la distribución de probabilidad. Si establece P superior en 0,9, el modelo considera los “horses” y “zebras”, ya que se encuentran en el 90 % superior de la distribución de probabilidad.

Longitud

Los modelos fundacionales suelen admitir los siguientes parámetros que limitan la longitud de la respuesta. A continuación se proporcionan ejemplos de estos parámetros.

  • Longitud de la respuesta: un valor exacto para especificar la cantidad mínima o máxima de tokens que se devolverán en la respuesta generada.

  • Penalizaciones: especifique el grado en el que se penalizarán los resultados de una respuesta. Algunos ejemplos son los siguientes:

    • Longitud de la respuesta.

    • Tokens repetidos en una respuesta.

    • Frecuencia de los tokens en una respuesta.

    • Tipos de tokens en una respuesta.

  • Secuencias de parada: especifique secuencias de caracteres que provocan que el modelo deje de generar más tokens. Si el modelo genera la secuencia de parada que haya especificado, dejará de generar tokens después de haber generado esa secuencia.