Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Velocidad de las voces

Modo de enfoque
Velocidad de las voces - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Debido a la variación natural existente entre las voces, cada voz disponible habla a velocidades ligeramente diferentes. Por ejemplo, con las voces del idioma inglés de Estados Unidos, Ivy y Joanna son ligeramente más rápidas que Matthew y considerablemente más rápidas que Joey. Dado que existe tanta variación entre las voces, no hay una velocidad estándar (palabras por minuto) disponible para las voces de Amazon Polly. Sin embargo, puede saber el tiempo que tarda la voz en decir el texto seleccionado mediante las marcas de voz.

Medición de la duración de un pasaje de texto hablado
  1. Abre el AWS CLI.

  2. Ejecute el siguiente código, rellenándolo con datos según sea necesario.

    aws polly synthesize-speech \ --language-code optional language code if needed --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt
  3. Abra LengthOfText.txt.

Si el texto era "Mary had a little lamb", las últimas líneas devueltas por Amazon Polly serían:

{"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}

El último visema, básicamente el sonido de las letras finales de "lamb" comienza 1082 milisegundos después del comienzo del fragmento de voz. Si bien no es exactamente la duración del audio, es un valor próximo y puede servir de base para la comparación entre voces.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.