Entrada multimodal - Amazon Nova

Funcionamiento Estructura de evento

Amazon Nova 2 Sonic ahora admite la entrada multimodal, lo que le permite enviar mensajes de texto además de la entrada de voz durante una sesión de conversación. Si bien la voz sigue siendo el principal modo de interacción, la entrada de texto ofrece flexibilidad en situaciones en las que escribir resulta más cómodo o apropiado.

Se requiere una transmisión continua: la entrada multimodal requiere una sesión de transmisión activa para funcionar correctamente. La sesión debe mantener una transmisión continua como una sesión de voz normal; de lo contrario, se aplicarán los tiempos de espera de sesión estándar y se terminará la conexión.

Los niveles de sensibilidad en la entrada de texto multimodal son útiles en situaciones como las siguientes:

Integración de aplicaciones del cliente (web y móvil): permite a los usuarios interactuar con la aplicación mediante texto y voz, lo que ofrece experiencias multimodales fluidas.
Caso de uso de “El modelo comienza”: se puede enviar un mensaje de texto inmediatamente después del inicio de la sesión para hacer la petición al modelo de que comience a hablar.
Guía del modelo durante la llamada asíncrona a herramientas: cuando se desencadena un evento toolUse y el sistema comienza a procesar llamadas a herramientas, el cliente puede enviar un mensaje de texto a Sonic para que le dé una respuesta natural mientras espera, como, por ejemplo: “Espere un segundo mientras proceso la información. Mientras tanto, ¿hay algo más en lo que pueda ayudar?”.
Integración de DTMF de telefonía: el cliente utiliza el teclado del teléfono para ingresar información confidencial (como números de tarjetas de crédito). Nota: Amazon Nova Sonic no procesa los tonos de DTMF de forma nativa. Para admitir la entrada de DTMF, el sistema debe detectar los tonos, convertirlos en texto (por ejemplo, “1234”) y enviarlos a Nova 2 Sonic.

La entrada multimodal utiliza una secuencia de tres eventos similar a la entrada de audio:

Evento de inicio del contenido: indica el comienzo de la entrada de texto.
Evento de entrada de texto: contiene el mensaje de texto real.
Evento de fin del contenido: indica que se ha completado la entrada de texto.

Los tres eventos deben usar los mismos promptName y contentName para mantener la secuencia. Se debe generar un nuevo UUID para contentName cada vez que envíe una entrada de texto para garantizar un seguimiento adecuado de la conversación de varios turnos.

Inicia la secuencia de entrada de texto con los detalles de configuración:


{
  "event": {
    "contentStart": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "role": "USER",
      "type": "TEXT",
      "interactive": true,
      "textInputConfiguration": {
        "mediaType": "text/plain"
      }
    }
  }
}

Parámetros clave:

promptName: nombre de la petición de conversación (coherente a lo largo de la sesión)
contentName: identificador único para esta entrada de texto (se genera un nuevo UUID para cada mensaje)
role: establecido en "USER" para indicar la entrada del usuario
type: establecido en "TEXT" para la entrada de texto
interactive: establecido en true para habilitar el modo interactivo
mediaType: establecido en "text/plain" para contenido de texto sin formato

Incluye el contenido real del mensaje de texto:


{
  "event": {
    "textInput": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "content": "<your_text_message>"
    }
  }
}

Parámetros clave:

promptName: debe coincidir con el valor del evento de inicio del contenido
contentName: debe coincidir con el valor del evento de inicio del contenido
role: cadena del mensaje de texto

Indica que se ha completado la entrada de texto:


{
  "event": {
    "contentEnd": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>"
    }
  }
}

Parámetros clave:

promptName: debe coincidir con el valor de los eventos anteriores
contentName: debe coincidir con el valor de los eventos anteriores

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Control de los turnos

Soporte lingüístico y capacidades multilingües