Entrada multimodal
Amazon Nova 2 Sonic ahora admite la entrada multimodal, lo que le permite enviar mensajes de texto además de la entrada de voz durante una sesión de conversación. Si bien la voz sigue siendo el principal modo de interacción, la entrada de texto ofrece flexibilidad en situaciones en las que escribir resulta más cómodo o apropiado.
Se requiere una transmisión continua: la entrada multimodal requiere una sesión de transmisión activa para funcionar correctamente. La sesión debe mantener una transmisión continua como una sesión de voz normal; de lo contrario, se aplicarán los tiempos de espera de sesión estándar y se terminará la conexión.
Los niveles de sensibilidad en la entrada de texto multimodal son útiles en situaciones como las siguientes:
-
Integración de aplicaciones del cliente (web y móvil): permite a los usuarios interactuar con la aplicación mediante texto y voz, lo que ofrece experiencias multimodales fluidas.
-
Caso de uso de “El modelo comienza”: se puede enviar un mensaje de texto inmediatamente después del inicio de la sesión para hacer la petición al modelo de que comience a hablar.
-
Guía del modelo durante la llamada asíncrona a herramientas: cuando se desencadena un evento toolUse y el sistema comienza a procesar llamadas a herramientas, el cliente puede enviar un mensaje de texto a Sonic para que le dé una respuesta natural mientras espera, como, por ejemplo: “Espere un segundo mientras proceso la información. Mientras tanto, ¿hay algo más en lo que pueda ayudar?”.
-
Integración de DTMF de telefonía: el cliente utiliza el teclado del teléfono para ingresar información confidencial (como números de tarjetas de crédito). Nota: Amazon Nova Sonic no procesa los tonos de DTMF de forma nativa. Para admitir la entrada de DTMF, el sistema debe detectar los tonos, convertirlos en texto (por ejemplo, “1234”) y enviarlos a Nova 2 Sonic.
Funcionamiento
La entrada multimodal utiliza una secuencia de tres eventos similar a la entrada de audio:
-
Evento de inicio del contenido: indica el comienzo de la entrada de texto.
-
Evento de entrada de texto: contiene el mensaje de texto real.
-
Evento de fin del contenido: indica que se ha completado la entrada de texto.
Los tres eventos deben usar los mismos promptName y contentName para mantener la secuencia. Se debe generar un nuevo UUID para contentName cada vez que envíe una entrada de texto para garantizar un seguimiento adecuado de la conversación de varios turnos.
Estructura de evento
Inicia la secuencia de entrada de texto con los detalles de configuración:
{ "event": { "contentStart": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "role": "USER", "type": "TEXT", "interactive": true, "textInputConfiguration": { "mediaType": "text/plain" } } } }
Parámetros clave:
-
promptName: nombre de la petición de conversación (coherente a lo largo de la sesión) -
contentName: identificador único para esta entrada de texto (se genera un nuevo UUID para cada mensaje) -
role: establecido en"USER"para indicar la entrada del usuario -
type: establecido en"TEXT"para la entrada de texto -
interactive: establecido entruepara habilitar el modo interactivo -
mediaType: establecido en"text/plain"para contenido de texto sin formato
Incluye el contenido real del mensaje de texto:
{ "event": { "textInput": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "content": "<your_text_message>" } } }
Parámetros clave:
-
promptName: debe coincidir con el valor del evento de inicio del contenido -
contentName: debe coincidir con el valor del evento de inicio del contenido -
role: cadena del mensaje de texto
Indica que se ha completado la entrada de texto:
{ "event": { "contentEnd": { "promptName": "<prompt_name>", "contentName": "<new_content_name>" } } }
Parámetros clave:
-
promptName: debe coincidir con el valor de los eventos anteriores -
contentName: debe coincidir con el valor de los eventos anteriores