Timing einer Sprachgeschwindigkeit

Fokusmodus

Timing einer Sprachgeschwindigkeit - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufgrund der natürlichen Variation zwischen den Stimmen spricht jede verfügbare Stimme mit leicht unterschiedlichen Geschwindigkeiten. Zum Beispiel sind Ivy und Joanna mit US-englischen Stimmen etwas schneller als Matthew und erheblich schneller als Joey. Da es so viele Unterschiede zwischen den Stimmen gibt, ist für Amazon Polly Polly-Stimmen keine Standardgeschwindigkeit (Wörter pro Minute) verfügbar. Sie können jedoch mithilfe von Sprachmarken herausfinden, wie lange es dauert, bis Ihre Stimme den ausgewählten Text sagt.

Um die Länge einer gesprochenen Textpassage zu messen

Öffne das AWS CLI.

Führen Sie den folgenden Code aus und füllen Sie ihn nach Bedarf aus.


     aws polly synthesize-speech \
          --language-code optional language code if needed
          --output-format json \
          --voice-id [name of desired voice] \
          --text '[desired text]' \
          --speech-mark-types='["viseme"]' \
          LengthOfText.txt

Öffnen Sie LengthOfText.txt.

Wenn der Text „Mary hatte ein kleines Lamm“ lauten würde, wären die letzten Zeilen, die Amazon Polly zurückgibt, wie folgt:


     {"time":882,"type":"viseme","value":"t"}
     {"time":964,"type":"viseme","value":"a"}
     {"time":1082,"type":"viseme","value":"p"}

Das letzte Mundbild, d. h. der Klang der letzten Buchstaben in „lamb“, beginnt 1082 Millisekunden nach dem Beginn der Sprachausgabe. Dies ist zwar nicht genau die Länge des Audiomaterials, kommt dem jedoch ziemlich nahe und dient als Grundlage für den Vergleich zwischen Stimmen.