Velocidad de las voces

Modo de enfoque

Velocidad de las voces - Amazon Polly

Debido a la variación natural existente entre las voces, cada voz disponible habla a velocidades ligeramente diferentes. Por ejemplo, con las voces del idioma inglés de Estados Unidos, Ivy y Joanna son ligeramente más rápidas que Matthew y considerablemente más rápidas que Joey. Dado que existe tanta variación entre las voces, no hay una velocidad estándar (palabras por minuto) disponible para las voces de Amazon Polly. Sin embargo, puede saber el tiempo que tarda la voz en decir el texto seleccionado mediante las marcas de voz.

Medición de la duración de un pasaje de texto hablado

Abre el AWS CLI.

Ejecute el siguiente código, rellenándolo con datos según sea necesario.


     aws polly synthesize-speech \
          --language-code optional language code if needed
          --output-format json \
          --voice-id [name of desired voice] \
          --text '[desired text]' \
          --speech-mark-types='["viseme"]' \
          LengthOfText.txt

Abra LengthOfText.txt.

Si el texto era "Mary had a little lamb", las últimas líneas devueltas por Amazon Polly serían:


     {"time":882,"type":"viseme","value":"t"}
     {"time":964,"type":"viseme","value":"a"}
     {"time":1082,"type":"viseme","value":"p"}

El último visema, básicamente el sonido de las letras finales de "lamb" comienza 1082 milisegundos después del comienzo del fragmento de voz. Si bien no es exactamente la duración del audio, es un valor próximo y puede servir de base para la comparación entre voces.