Grundlegendes zum Sprechersuche-Workflow für das Amazon Chime SDK

Fokusmodus

Grundlegendes zum Sprechersuche-Workflow für das Amazon Chime SDK - Amazon Chime SDK

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

In diesem Abschnitt zeigen wir Ihnen ein Beispiel für einen Daten- und Programmablauf für eine Amazon Chime SDK-Lautsprechersuche.

Die Lautsprechersuchfunktion beinhaltet die Erstellung einer Spracheinbettung, mit der die Stimme eines Anrufers mit zuvor gespeicherten Sprachdaten verglichen werden kann. Die Erfassung, Verwendung, Speicherung und Aufbewahrung biometrischer Identifikatoren und biometrischer Informationen in Form eines digitalen Sprachabdrucks kann die informierte Zustimmung des Anrufers in Form einer schriftlichen Mitteilung erfordern. Eine solche Zustimmung ist nach verschiedenen staatlichen Gesetzen erforderlich, einschließlich biometrischer Gesetze in Illinois, Texas, Washington und anderen Datenschutzgesetzen der Bundesstaaten. Bevor Sie die Lautsprecher-Suchfunktion verwenden, müssen Sie alle Hinweise bereitstellen und alle Einwilligungen einholen, die nach geltendem Recht und gemäß den AWS-Servicebedingungen für Ihre Nutzung der Funktion erforderlich sind.

Das folgende Diagramm zeigt ein Beispiel für den Datenfluss durch eine Analyseaufgabe zur Lautsprechersuche. Die nummerierten Beschreibungen unter dem Diagramm beschreiben jeden Schritt des Prozesses. Das Diagramm geht davon aus, dass Sie bereits einen Amazon Chime SDK Voice Connector mit einer Anrufanalysekonfiguration konfiguriert haben, die über eine VoiceAnalyticsProcessor verfügt. Weitere Informationen finden Sie unter Aufzeichnen von Voice Connector-Anrufen.

Ein Diagramm, das den Datenfluss durch eine Analyse der Lautsprechersuche zeigt.

Sie oder ein Systemadministrator erstellen eine Sprachprofildomäne zum Speichern von Spracheinbettungen und Sprachprofilen. Weitere Informationen zum Erstellen von Sprachprofil-Domains finden Sie unter Sprachprofil-Domains erstellen im Amazon Chime SDK-Administratorhandbuch. Sie können auch das verwenden CreateVoiceProfileDomainAPI.
Ein Anrufer wählt sich mit einer Telefonnummer ein, die einem Amazon Chime SDK Voice Connector zugewiesen ist. Oder ein Agent verwendet eine Voice Connector-Nummer, um einen ausgehenden Anruf zu tätigen.
Der Amazon Chime SDK Voice Connector-Service erstellt eine Transaktions-ID und ordnet sie dem Anruf zu.
Angenommen, Ihre Anwendung abonniert EventBridge Ereignisse, ruft Ihre Anwendung die CreateMediaInsightsPipelineAPI mit der Media Insights-Pipeline-Konfiguration und Kinesis Video Stream ARNs für den Voice Connector-Anruf.

Weitere Informationen zur Verwendung finden EventBridge Sie unter. Grundlegendes zu Workflows für auf maschinellem Lernen basierende Analysen für das Amazon Chime SDK
Ihre Anwendung — z. B. ein Interactive Voice Response-System — oder Ihr Agent informiert den Anrufer über die Anrufaufzeichnung und die Verwendung von Spracheinbettungen für Sprachanalysen und bittet ihn um seine Zustimmung zur Teilnahme.
Sobald der Anrufer seine Zustimmung gegeben hat, kann Ihre Anwendung oder Ihr Mitarbeiter den StartSpeakerSearchTaskAPI über das Voice SDK, wenn Sie über einen Voice Connector und eine Transaktions-ID verfügen. Oder, wenn Sie statt einer Transaktions-ID eine Media Insights-Pipeline-ID haben, rufen Sie die StartSpeakerSearchTaskAPI im Media Pipelines SDK.

Sobald der Anrufer seine Zustimmung erteilt hat, ruft Ihre Anwendung oder Ihr Agent die API aufStartSpeakerSearchTask. Sie müssen die Voice Connector-ID, die Transaktions-ID und die Domain-ID des Sprachprofils an die API übergeben. Es wird eine Aufgaben-ID für die Lautsprechersuche zurückgegeben, um die asynchrone Aufgabe zu identifizieren.

Anmerkung
Bevor Sie die StartSpeakerSearchTask API in einem der beiden aufrufen SDKs, müssen Sie alle erforderlichen Hinweise bereitstellen und alle erforderlichen Zustimmungen einholen, wie dies gesetzlich und gemäß den AWS-Servicebedingungen vorgeschrieben ist.
Das System sammelt 10 Sekunden der Stimme des Anrufers. Der Anrufer muss mindestens so lange sprechen. Das System erfasst oder analysiert keine Stille.
Die Media Insights-Pipeline vergleicht die Sprache mit den Stimmprofilen in der Domain und listet die 10 Treffer mit der höchsten Vertrauenswürdigkeit auf. Wenn keine Übereinstimmung gefunden wird, erstellt der Voice Connector ein Stimmprofil.
Der Media Insights-Pipeline-Dienst sendet ein Benachrichtigungsereignis an die konfigurierten Benachrichtigungsziele.
Der Anrufer spricht weiter und spricht weitere 10 Sekunden ohne Stummschaltung.
Die Media Insights-Pipeline generiert eine Spracheinbettung für die Registrierung, mit der Sie ein Stimmprofil erstellen oder ein vorhandenes Sprachprofil aktualisieren können.
Die Media Insights-Pipeline sendet eine VoiceprintGenerationSuccessful Benachrichtigung an die konfigurierten Benachrichtigungsziele.
Ihre Anwendung ruft die CreateVoiceProfile oder UpdateVoiceProfile APIs um das Profil zu erstellen oder zu aktualisieren.
Ihre Anwendung ruft die GetSpeakerSearchTaskAPI nach Bedarf, um den neuesten Status der Lautsprecher-Suchaufgabe abzurufen.