Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Debido a la variación natural existente entre las voces, cada voz disponible habla a velocidades ligeramente diferentes. Por ejemplo, con las voces del idioma inglés de Estados Unidos, Ivy y Joanna son ligeramente más rápidas que Matthew y considerablemente más rápidas que Joey. Dado que existe tanta variación entre las voces, no hay una velocidad estándar (palabras por minuto) disponible para las voces de Amazon Polly. Sin embargo, puede saber el tiempo que tarda la voz en decir el texto seleccionado mediante las marcas de voz.
Medición de la duración de un pasaje de texto hablado
-
Abre el AWS CLI.
-
Ejecute el siguiente código, rellenándolo con datos según sea necesario.
aws polly synthesize-speech \ --language-code
optional language code if needed
--output-format json \ --voice-id[name of desired voice]
\ --text '[desired text]
' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt -
Abra
LengthOfText.txt
.
Si el texto era "Mary had a little lamb", las últimas líneas devueltas por Amazon Polly serían:
{"time":882,"type":"viseme","value":"t"}
{"time":964,"type":"viseme","value":"a"}
{"time":1082,"type":"viseme","value":"p"}
El último visema, básicamente el sonido de las letras finales de "lamb" comienza 1082 milisegundos después del comienzo del fragmento de voz. Si bien no es exactamente la duración del audio, es un valor próximo y puede servir de base para la comparación entre voces.