Voz a voz (Amazon Nova 2 Sonic)
Amazon Nova 2 Sonic permite la IA conversacional en tiempo real con entrada y salida de voz. En la siguiente sección, se describen las capacidades avanzadas para crear asistentes de voz interactivos, automatización del servicio de atención al cliente y aplicaciones conversacionales.
Características principales de
Amazon Nova 2 Sonic ofrece las siguientes capacidades:
-
Comprensión de transmisión de voz de última generación con API de transmisión bidireccional que permite conversaciones en tiempo real y de baja latencia en varios turnos.
-
Soporte multilingüe con detección y cambio automáticos de idioma. Se ofrecen voces expresivas, tanto masculinas como femeninas, en los siguientes idiomas:
-
Inglés (EE. UU., Reino Unido, India, Australia)
-
Francés
-
Italiano
-
Alemán
-
Español
-
Portugués
-
Hindi
-
-
Voces políglotas que pueden hablar cualquiera de los idiomas admitidos para ofrecer una experiencia de usuario uniforme incluso cuando el usuario cambia de idioma en la misma sesión.
-
Claridad frente al ruido de fondo para situaciones de implementación reales.
-
Claridad con diferentes acentos para los idiomas admitidos.
-
Experiencias de IA conversacional naturales y similares a las humanas con una riqueza contextual en todos los idiomas admitidos.
-
Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.
-
Sistema inteligente de turnos que detecta cuándo los usuarios terminan de hablar y cuándo debe responder el asistente, lo que crea un ritmo de diálogo natural.
-
Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.
-
Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).
-
Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.
-
Gestión asíncrona de las herramientas que ejecuta las llamadas a las herramientas mientras mantiene el flujo de la conversación, lo que permite al asistente continuar hablando mientras las herramientas procesan en segundo plano.
-
Admite entradas multimodales para entradas de audio y texto dentro de la misma conversación, lo que permite patrones de interacción flexibles.
-
Límite de conexión de 8 minutos, con un patrón de renovación de la conexión y continuación de la sesión disponible en muestras de código.