# Uso del modelo de voz a voz de Amazon Nova Sonic
<a name="speech"></a>

**nota**  
Esta documentación corresponde a la versión 1 de Amazon Nova. Para ver la guía de Amazon Nova 2 Sonic, consulte [Speech-to-Speech](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html).

El modelo Amazon Nova Sonic proporciona interacciones de conversación en tiempo real a través de la transmisión de audio bidireccional. Amazon Nova Sonic procesa y responde a la voz en tiempo real a medida que se produce, lo que permite experiencias de conversación naturales y similares a las humanas.

Amazon Nova Sonic ofrece un enfoque transformador de la IA conversacional con su arquitectura unificada de comprensión y generación de voz. Este modelo fundacional de última generación presenta una relación precio-rendimiento líder en el sector, lo que permite que las empresas creen experiencias de voz que suenen naturales y sean conscientes del contexto. 

Características y funciones básicas
+ Comprensión de transmisión de voz de última generación con capacidades de API de transmisión bidireccional que permiten conversaciones en tiempo real y de baja latencia en varios turnos.
+ Las experiencias de IA conversacional naturales y similares a las humanas cuentan con una riqueza contextual en todos los idiomas compatibles.
+ Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.
+ Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.
+ Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).
+ Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.
+ Claridad frente al ruido de fondo para situaciones de implementación en el mundo real.
+ Soporte multilingüe con voces y estilos de habla expresivos. Se ofrecen voces expresivas, tanto masculinas como femeninas, en cinco idiomas: inglés (EE. UU., Reino Unido), francés, italiano, alemán y español.
+ Reconocimiento de diversos estilos de habla en todos los idiomas compatibles.

**Topics**
+ [Arquitectura de Amazon Nova Sonic](#speech-architecture)
+ [Uso de la API de transmisión bidireccional](speech-bidirection.md)
+ [Ejemplo de voz a voz](s2s-example.md)
+ [Ejemplos de código para Amazon Nova Sonic](speech-code-examples.md)
+ [Gestión de eventos de entrada con la API bidireccional](input-events.md)
+ [Gestión de eventos de salida con la API bidireccional](output-events.md)
+ [Voces disponibles para Amazon Nova Sonic](available-voices.md)
+ [Gestión de errores con Amazon Nova Sonic](speech-errors.md)
+ [Uso de herramientas, RAG y flujos de agentes con Amazon Nova Sonic](speech-tools.md)

## Arquitectura de Amazon Nova Sonic
<a name="speech-architecture"></a>

Amazon Nova Sonic implementa una arquitectura basada en eventos a través de la API de transmisión bidireccional, lo que permite experiencias de conversación en tiempo real. Estos son los componentes arquitectónicos clave de la API:

1. **Transmisión bidireccional de eventos**: Amazon Nova Sonic utiliza una conexión bidireccional persistente que permite la transmisión simultánea de eventos en ambas direcciones. A diferencia de los patrones tradicionales de solicitud-respuesta, este enfoque permite lo siguiente:
   + transmisión continua de audio del usuario al modelo,
   + procesamiento y generación de voz simultáneos,
   + respuestas del modelo en tiempo real sin esperar a que se completen los enunciados.

1. **Flujo de comunicación basado en eventos**: toda la interacción sigue un protocolo basado en eventos en el que sucede lo siguiente:
   + El cliente y el modelo intercambian eventos JSON estructurados.
   + Los eventos controlan el ciclo de vida de la sesión, la transmisión de audio, las respuestas de texto y las interacciones con herramientas.
   + Cada evento tiene funciones específicas en el flujo de la conversación.

La API de transmisión bidireccional consta de estos tres componentes principales:

1. **Inicialización de la sesión**: el cliente establece un flujo bidireccional y envía los eventos de configuración.

1. **Transmisión de audio**: el audio del usuario se captura, codifica y transmite de forma continua como eventos al modelo, que procesa continuamente la voz.

1. **Transmisión de respuestas**: a medida que llega el audio, el modelo envía simultáneamente respuestas a los eventos:
   + transcripciones de texto de la voz del usuario (ASR),
   + eventos de uso de herramientas para llamadas a funciones,
   + respuesta de texto del modelo,
   + fragmentos de audio para salida hablada.

En el siguiente diagrama, se proporciona una descripción general de la API de transmisión bidireccional.

![\[Diagrama que explica el sistema de transmisión bidireccional de Amazon Nova Sonic.\]](http://docs.aws.amazon.com/es_es/nova/latest/userguide/images/nova-sonic-sequential.png)