Voz a voz (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic permite la IA conversacional en tiempo real con entrada y salida de voz. En la siguiente sección, se describen las capacidades avanzadas para crear asistentes de voz interactivos, automatización del servicio de atención al cliente y aplicaciones conversacionales.

Características principales de

Amazon Nova 2 Sonic ofrece las siguientes capacidades:

Comprensión de transmisión de voz de última generación con API de transmisión bidireccional que permite conversaciones en tiempo real y de baja latencia en varios turnos.
Soporte multilingüe con detección y cambio automáticos de idioma. Se ofrecen voces expresivas, tanto masculinas como femeninas, en los siguientes idiomas:
- Inglés (EE. UU., Reino Unido, India, Australia)
- Francés
- Italiano
- Alemán
- Español
- Portugués
- Hindi
Voces políglotas que pueden hablar cualquiera de los idiomas admitidos para ofrecer una experiencia de usuario uniforme incluso cuando el usuario cambia de idioma en la misma sesión.
Claridad frente al ruido de fondo para situaciones de implementación reales.
Claridad con diferentes acentos para los idiomas admitidos.
Experiencias de IA conversacional naturales y similares a las humanas con una riqueza contextual en todos los idiomas admitidos.
Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.
Sistema inteligente de turnos que detecta cuándo los usuarios terminan de hablar y cuándo debe responder el asistente, lo que crea un ritmo de diálogo natural.
Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.
Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).
Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.
Gestión asíncrona de las herramientas que ejecuta las llamadas a las herramientas mientras mantiene el flujo de la conversación, lo que permite al asistente continuar hablando mientras las herramientas procesan en segundo plano.
Admite entradas multimodales para entradas de audio y texto dentro de la misma conversación, lo que permite patrones de interacción flexibles.
Límite de conexión de 8 minutos, con un patrón de renovación de la conexión y continuación de la sesión disponible en muestras de código.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Comprensión multimodal

Introducción