View a markdown version of this page

Voz a voz (Amazon Nova 2 Sonic) - Amazon Nova

Voz a voz (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic permite la IA conversacional en tiempo real con entrada y salida de voz. En la siguiente sección, se describen las capacidades avanzadas para crear asistentes de voz interactivos, automatización del servicio de atención al cliente y aplicaciones conversacionales.

Características principales de

Amazon Nova 2 Sonic ofrece las siguientes capacidades:

  • Comprensión de transmisión de voz de última generación con API de transmisión bidireccional que permite conversaciones en tiempo real y de baja latencia en varios turnos.

  • Soporte multilingüe con detección y cambio automáticos de idioma. Se ofrecen voces expresivas, tanto masculinas como femeninas, en los siguientes idiomas:

    • Inglés (EE. UU., Reino Unido, India, Australia)

    • Francés

    • Italiano

    • Alemán

    • Español

    • Portugués

    • Hindi

  • Voces políglotas que pueden hablar cualquiera de los idiomas admitidos para ofrecer una experiencia de usuario uniforme incluso cuando el usuario cambia de idioma en la misma sesión.

  • Claridad frente al ruido de fondo para situaciones de implementación reales.

  • Claridad con diferentes acentos para los idiomas admitidos.

  • Experiencias de IA conversacional naturales y similares a las humanas con una riqueza contextual en todos los idiomas admitidos.

  • Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.

  • Sistema inteligente de turnos que detecta cuándo los usuarios terminan de hablar y cuándo debe responder el asistente, lo que crea un ritmo de diálogo natural.

  • Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.

  • Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).

  • Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.

  • Gestión asíncrona de las herramientas que ejecuta las llamadas a las herramientas mientras mantiene el flujo de la conversación, lo que permite al asistente continuar hablando mientras las herramientas procesan en segundo plano.

  • Admite entradas multimodales para entradas de audio y texto dentro de la misma conversación, lo que permite patrones de interacción flexibles.

  • Límite de conexión de 8 minutos, con un patrón de renovación de la conexión y continuación de la sesión disponible en muestras de código.