Ausgabe von Sprachmarken

Amazon Polly gibt Sprachmarkenobjekte in einem zeilengetrennten JSON-Stream zurück. Ein Sprachmarkierungsobjekt enthält die folgenden Felder:

time: der Zeitstempel in Millisekunden relativ zum Beginn des entsprechenden Audiostreams
type — der Typ des Sprachzeichens (Satz, Wort, Visem oder SSML)
start — der Offset in Byte (nicht in Zeichen) des Beginns des Objekts im Eingabetext (ohne Visem-Zeichen)
end — der Offset in Byte (nicht in Zeichen) des Endes des Objekts im Eingabetext (ohne Visem-Markierungen)
value: variabel je nach Sprachmarkierungstyp
- SSML: SSML-Tag des Typs <mark>
- viseme: der Name des Mundbilds
- word oder sentence: eine Teilzeichenfolge des Eingabetexts, gekennzeichnet durch die Felder "start" und "end"

Amazon Polly generiert beispielsweise das folgende word Sprachmarkenobjekt aus dem Text „Mary had a little lamb“:


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

Das beschriebene Wort ("had") beginnt 373 Millisekunden nach Start des Audiostreams. Sein Anfang liegt bei Byte 5, sein Ende bei Byte 8 des Eingabetexts.

Anmerkung

Diese Metadaten wurden für die Stimme Joanna generiert. Wenn Sie für denselben Eingabetext eine andere Stimme verwenden, sehen die Metadaten möglicherweise anders aus.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Visemes und Amazon Polly

Sprachzeichen anfordern