

# Voz a voz (Amazon Nova 2 Sonic)
<a name="using-conversational-speech"></a>

Amazon Nova 2 Sonic permite la IA conversacional en tiempo real con entrada y salida de voz. En la siguiente sección, se describen las capacidades avanzadas para crear asistentes de voz interactivos, automatización del servicio de atención al cliente y aplicaciones conversacionales.

## Características principales de
<a name="sonic-key-features"></a>

Amazon Nova 2 Sonic ofrece las siguientes capacidades:
+ Comprensión de transmisión de voz de última generación con API de transmisión bidireccional que permite conversaciones en tiempo real y de baja latencia en varios turnos.
+ Soporte multilingüe con detección y cambio automáticos de idioma. Se ofrecen voces expresivas, tanto masculinas como femeninas, en los siguientes idiomas:
  + Inglés (EE. UU., Reino Unido, India, Australia)
  + Francés
  + Italiano
  + Alemán
  + Español
  + Portugués
  + Hindi
+ Voces políglotas que pueden hablar cualquiera de los idiomas admitidos para ofrecer una experiencia de usuario uniforme incluso cuando el usuario cambia de idioma en la misma sesión.
+ Claridad frente al ruido de fondo para situaciones de implementación reales.
+ Claridad con diferentes acentos para los idiomas admitidos.
+ Experiencias de IA conversacional naturales y similares a las humanas con una riqueza contextual en todos los idiomas admitidos.
+ Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.
+ Sistema inteligente de turnos que detecta cuándo los usuarios terminan de hablar y cuándo debe responder el asistente, lo que crea un ritmo de diálogo natural.
+ Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.
+ Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).
+ Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.
+ Gestión asíncrona de las herramientas que ejecuta las llamadas a las herramientas mientras mantiene el flujo de la conversación, lo que permite al asistente continuar hablando mientras las herramientas procesan en segundo plano.
+ Admite entradas multimodales para entradas de audio y texto dentro de la misma conversación, lo que permite patrones de interacción flexibles.
+ Límite de conexión de 8 minutos, con un patrón de renovación de la conexión y continuación de la sesión disponible en muestras de código.