Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Polly gibt Sprachmarkenobjekte in einem zeilengetrennten JSON-Stream zurück. Ein Sprachmarkierungsobjekt enthält die folgenden Felder:
-
time: der Zeitstempel in Millisekunden relativ zum Beginn des entsprechenden Audiostreams
-
type — der Typ des Sprachzeichens (Satz, Wort, Visem oder SSML)
-
start — der Offset in Byte (nicht in Zeichen) des Beginns des Objekts im Eingabetext (ohne Visem-Zeichen)
-
end — der Offset in Byte (nicht in Zeichen) des Endes des Objekts im Eingabetext (ohne Visem-Markierungen)
-
value: variabel je nach Sprachmarkierungstyp
SSML: SSML-Tag des Typs <mark>
viseme: der Name des Mundbilds
word oder sentence: eine Teilzeichenfolge des Eingabetexts, gekennzeichnet durch die Felder "start" und "end"
Amazon Polly generiert beispielsweise das folgende word
Sprachmarkenobjekt aus dem Text „Mary had a little lamb“:
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
Das beschriebene Wort ("had") beginnt 373 Millisekunden nach Start des Audiostreams. Sein Anfang liegt bei Byte 5, sein Ende bei Byte 8 des Eingabetexts.
Anmerkung
Diese Metadaten wurden für die Stimme Joanna
generiert. Wenn Sie für denselben Eingabetext eine andere Stimme verwenden, sehen die Metadaten möglicherweise anders aus.