Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic ermöglicht Konversations-KI in Echtzeit mit Spracheingabe und -ausgabe. Der folgende Abschnitt behandelt erweiterte Funktionen für die Erstellung interaktiver Sprachassistenten, die Automatisierung des Kundendienstes und Konversationsanwendungen.

Schlüssel-Features

Amazon Nova 2 Sonic bietet die folgenden Funktionen:

State-of-the-art Streaming-Sprachverständnis mit bidirektionaler Streaming-API, die Multi-Turn-Konversationen in Echtzeit und mit geringer Latenz ermöglicht.
Mehrsprachiger Support mit automatischer Spracherkennung und Sprachumschaltung. Ausdrucksstarke Stimmen, darunter sowohl männlich als auch weiblich klingende Stimmen, werden in den folgenden Sprachen angeboten:
- Englisch (USA, Großbritannien, Indien, Australien)
- Französisch
- Italienisch
- Deutsch
- Spanisch
- Portugiesisch
- Hindi
Mehrsprachige Stimmen, die jede der unterstützten Sprachen sprechen können, um ein einheitliches Benutzererlebnis zu gewährleisten, auch wenn der Benutzer innerhalb derselben Sitzung die Sprache wechselt.
Robustheit gegenüber Hintergrundgeräuschen für reale Einsatzszenarien.
Robustheit gegenüber unterschiedlichen Akzenten für unterstützte Sprachen.
Natürliche, menschenähnliche KI-Konversationserlebnisse mit kontextuellem Reichtum in allen unterstützten Sprachen.
Adaptive Sprachantwort, welche die Wiedergabe dynamisch an den Sprachstil der Eingabesprache anpasst.
Intelligentes Abwechseln, das erkennt, wann Benutzer mit dem Sprechen fertig sind und wann der Assistent antworten sollte, wodurch ein natürlicher Dialogrhythmus entsteht.
Reibungsloser Umgang mit Benutzerunterbrechungen, ohne den Konversationskontext zu verlieren.
Wissensgenerierung mit Unternehmensdaten mit Retrieval Augmented Generation (RAG).
Funktionsaufruf und Unterstützung agentenbasierter Workflows für die Erstellung komplexer KI-Anwendungen.
Asynchrone Werkzeugverwaltung, bei der Werkzeuganrufe ausgeführt und gleichzeitig der Gesprächsfluss aufrechterhalten wird, sodass der Assistent weitersprechen kann, während die Tools im Hintergrund verarbeitet werden.
Cross-modal Eingabeunterstützung für Audio- und Texteingaben innerhalb derselben Konversation, wodurch flexible Interaktionsmuster ermöglicht werden.
Verbindungslimit von 8 Minuten, wobei das Muster für Verbindungserneuerung und Sitzungsfortsetzung in Codebeispielen verfügbar ist.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Multimodales Verständnis

Erste Schritte