Cross-modal Eingabe - Amazon Nova

Funktionsweise Ereignisstruktur

Amazon Nova 2 Sonic unterstützt jetzt modalübergreifende Eingaben, sodass Sie während einer Konversationssitzung zusätzlich zur Spracheingabe Textnachrichten senden können. Sprache bleibt zwar die primäre Art der Interaktion, aber die Texteingabe bietet Flexibilität in Szenarien, in denen das Tippen bequemer oder angemessener ist.

Kontinuierliches Streaming erforderlich: Die Cross-modal Eingabe erfordert eine aktive Streaming-Sitzung, um ordnungsgemäß zu funktionieren. Die Sitzung muss wie bei einer normalen Sprachsitzung kontinuierlich gestreamt werden, andernfalls werden Standard-Sitzungs-Timeouts angewendet und die Verbindung wird beendet.

Sensitivitätsstufen bei modalübergreifender Texteingabe sind nützlich für Szenarien wie:

Client-side App-Integration (Web und Mobile): Ermöglicht Benutzern die Interaktion mit der Anwendung sowohl über Text als auch über Sprache und unterstützt so ein nahtloses multimodales Erlebnis.
Anwendungsfall: Unmittelbar nach Beginn der Sitzung kann eine Textnachricht gesendet werden, die das Model auffordert, mit dem Sprechen zu beginnen. Model-start-first
Anleitung des Modells beim asynchronen Werkzeugaufruf: Wenn ein ToolUse-Ereignis ausgelöst wird und das System mit der Verarbeitung von Toolaufrufen beginnt, kann der Kunde eine Textnachricht an Sonic senden, um während der Wartezeit eine natürliche Antwort zu geben — zum Beispiel: „Moment mal, während ich Ihre Informationen verarbeite. Kann ich in der Zwischenzeit mit etwas anderem weiterhelfen?“
Telefonie-DTMF-Integration: Der Kunde verwendet die Telefontastatur, um vertrauliche Informationen (wie Kreditkartennummern) einzugeben. Hinweis: Amazon Nova Sonic verarbeitet DTMF-Töne nicht nativ. Um die DTMF-Eingabe zu unterstützen, muss Ihr System die Töne erkennen, sie in Text umwandeln (z. B. „1234") und an Nova 2 Sonic senden.

Cross-modal Bei der Eingabe wird eine Sequenz mit drei Ereignissen verwendet, die der Audioeingabe ähnelt:

Inhalts-Startereignis: Signalisiert den Beginn der Texteingabe
Texteingabeereignis: Enthält die eigentliche Textnachricht
Ereignis am Ende des Inhalts: Signalisiert den Abschluss der Texteingabe

Alle drei Ereignisse müssen denselben PromptName und denselben ContentName verwenden, um die Reihenfolge beizubehalten. Jedes Mal, wenn Sie eine Texteingabe senden, sollte für ContentName eine neue UUID generiert werden, um eine korrekte Nachverfolgung von Konversationen in mehreren Runden zu gewährleisten.

Initiiert die Texteingabesequenz mit Konfigurationsdetails:


{
  "event": {
    "contentStart": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "role": "USER",
      "type": "TEXT",
      "interactive": true,
      "textInputConfiguration": {
        "mediaType": "text/plain"
      }
    }
  }
}

Hauptparameter:

promptNameInitiiert die Texteingabesequenz mit Konfigurationsdetails: ----SEP----:Der Name Ihrer Konversationsaufforderung (während der gesamten Sitzung einheitlich)
contentName: Eine eindeutige Kennung für diese Texteingabe (generieren Sie für jede Nachricht eine neue UUID)
role: Wird auf gesetzt, "USER" um Benutzereingaben anzuzeigen
type: Auf "TEXT" für Texteingabe setzen
interactive: Auf einstellen, true um den interaktiven Modus zu aktivieren
mediaType: Auf "text/plain" für reinen Textinhalt setzen

Enthält den eigentlichen Inhalt der Textnachricht:


{
  "event": {
    "textInput": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "content": "<your_text_message>"
    }
  }
}

Hauptparameter:

promptName: Muss mit dem Wert aus dem Startereignis für Inhalte übereinstimmen
contentName: Muss mit dem Wert von Content Start Event übereinstimmen
role: Ihre Textnachrichten-Zeichenfolge

Signalisiert den Abschluss der Texteingabe:


{
  "event": {
    "contentEnd": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>"
    }
  }
}

Hauptparameter:

promptName: Muss mit dem Wert früherer Ereignisse übereinstimmen
contentName: Muss mit dem Wert früherer Ereignisse übereinstimmen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Turn-taking Steuerbarkeit

Sprachunterstützung und mehrsprachige Funktionen