View a markdown version of this page

Speech-to-Speech (Amazon Nova 2 Sonic) - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic ermöglicht Konversations-KI in Echtzeit mit Spracheingabe und -ausgabe. Der folgende Abschnitt behandelt erweiterte Funktionen für die Erstellung interaktiver Sprachassistenten, die Automatisierung des Kundendienstes und Konversationsanwendungen.

Schlüssel-Features

Amazon Nova 2 Sonic bietet die folgenden Funktionen:

  • State-of-the-art Streaming-Sprachverständnis mit bidirektionaler Streaming-API, die Multi-Turn-Konversationen in Echtzeit und mit geringer Latenz ermöglicht.

  • Mehrsprachiger Support mit automatischer Spracherkennung und Sprachumschaltung. Ausdrucksstarke Stimmen, darunter sowohl männlich als auch weiblich klingende Stimmen, werden in den folgenden Sprachen angeboten:

    • Englisch (USA, Großbritannien, Indien, Australien)

    • Französisch

    • Italienisch

    • Deutsch

    • Spanisch

    • Portugiesisch

    • Hindi

  • Mehrsprachige Stimmen, die jede der unterstützten Sprachen sprechen können, um ein einheitliches Benutzererlebnis zu gewährleisten, auch wenn der Benutzer innerhalb derselben Sitzung die Sprache wechselt.

  • Robustheit gegenüber Hintergrundgeräuschen für reale Einsatzszenarien.

  • Robustheit gegenüber unterschiedlichen Akzenten für unterstützte Sprachen.

  • Natürliche, menschenähnliche KI-Konversationserlebnisse mit kontextuellem Reichtum in allen unterstützten Sprachen.

  • Adaptive Sprachantwort, welche die Wiedergabe dynamisch an den Sprachstil der Eingabesprache anpasst.

  • Intelligentes Abwechseln, das erkennt, wann Benutzer mit dem Sprechen fertig sind und wann der Assistent antworten sollte, wodurch ein natürlicher Dialogrhythmus entsteht.

  • Reibungsloser Umgang mit Benutzerunterbrechungen, ohne den Konversationskontext zu verlieren.

  • Wissensgenerierung mit Unternehmensdaten mit Retrieval Augmented Generation (RAG).

  • Funktionsaufruf und Unterstützung agentenbasierter Workflows für die Erstellung komplexer KI-Anwendungen.

  • Asynchrone Werkzeugverwaltung, bei der Werkzeuganrufe ausgeführt und gleichzeitig der Gesprächsfluss aufrechterhalten wird, sodass der Assistent weitersprechen kann, während die Tools im Hintergrund verarbeitet werden.

  • Modalübergreifende Eingabeunterstützung für Audio- und Texteingaben innerhalb derselben Konversation, wodurch flexible Interaktionsmuster ermöglicht werden.

  • Verbindungslimit von 8 Minuten, wobei das Muster für Verbindungserneuerung und Sitzungsfortsetzung in Codebeispielen verfügbar ist.