Establecimiento de una duración máxima para voz sintetizada

Modo de enfoque

Establecimiento de una duración máxima para voz sintetizada - Amazon Polly

<prosody amazon:max-duration>

Esta etiqueta solo es compatible actualmente con el formato TTS estándar.

Para controlar el tiempo que desea que tarde un fragmento de voz cuando se sintetiza, utilice la etiqueta <prosody> con el atributo amazon:max-duration.

La duración del fragmento de voz sintetizado varía ligeramente, en función de la voz que seleccione. Esto puede dificultar la coincidencia del fragmento de voz sintetizado con elementos visuales u otras actividades que requieran una sincronización precisa. Este problema aumenta en el caso de aplicaciones de traducción, ya que el tiempo que se tarda en decir frases concretas puede variar notablemente en distintos idiomas.

La etiqueta <prosody amazon:max-duration> asigna el fragmento de voz sintetizada a la cantidad de tiempo que desea que tarde (la duración).

Esta etiqueta utiliza la siguiente sintaxis:


<prosody amazon:max-duration="time duration">

Con la etiqueta <prosody amazon:max-duration>, puede especificar la duración en segundos o milisegundos:

ns: la duración máxima en segundos
nms: la duración máxima en milisegundos

Por ejemplo, el siguiente texto hablado tiene una duración máxima de 2 segundos:


<speak>
     <prosody amazon:max-duration="2s">
          Human speech is a powerful way to communicate. 
     </prosody>
</speak>

Texto colocado dentro de la etiqueta, no supera la duración especificada. Si la voz o el idioma elegido normalmente requiere más tiempo que la duración, Amazon Polly acelera el fragmento de voz de modo que se ajuste a la duración especificada.

Si la duración especificada es superior a lo que se tarda en leer el texto en una velocidad normal, Amazon Polly lee el fragmento con normalidad. No ralentiza el fragmento de voz ni añade silencio, por lo que el audio resultante es más corto de lo necesario.

nota

Amazon Polly aumenta la velocidad no más de 5 veces la velocidad normal. Si el texto se lee más rápido que esto, por lo general no tiene sentido. Si un fragmento de voz no puede ajustarse a la duración especificada, incluso aunque la velocidad se acelere al máximo, el audio se acelerará, pero durará más de la duración especificada.

Puede incluir una sola frase o varias frases dentro de una etiqueta <prosody amazon:max-duration> y puede utilizar varias etiquetas <prosody amazon:max-duration> en su texto.

Por ejemplo:


<speak>
     <prosody amazon:max-duration="2400ms">
        Human speech is a powerful way to communicate.
     </prosody>
     <break strength="strong"/>
     <prosody amazon:max-duration="5100ms">
        Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
     </prosody>
     <break strength="strong"/>
     <prosody amazon:max-duration="8900ms">
        We naturally understand this information, which is why speech is ideal for creating applications where 
        a screen isn’t practical or possible, or simply isn’t convenient.
     </prosody>
</speak>

El uso de la etiqueta <prosody amazon:max-duration> puede aumentar la latencia cuando Amazon Polly devuelve un fragmento de voz sintetizada. El grado de latencia depende del fragmento y de su longitud. Le recomendamos que utilice texto compuesto por fragmentos de texto relativamente cortos.

Limitaciones

Existen limitaciones, tanto en la forma de utilizar la etiqueta <prosody amazon:max-duration> y en cómo funciona con otras etiquetas de SSML:

El texto dentro de una etiqueta <prosody amazon:max-duration> no puede tener más de 1500 caracteres.

No puede anidar etiquetas <prosody amazon:max-duration>. Si coloca una etiqueta <prosody amazon:max-duration> dentro de otra, Amazon Polly omite la etiqueta interior.

Por ejemplo, en el caso siguiente se omite la etiqueta <prosody amazon:max-duration="5s">:


<speak>
     <prosody amazon:max-duration="16s">
          Human speech is a powerful way to communicate.
        
          <prosody amazon:max-duration="5s">
               Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
          </prosody>

          We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient.
     </prosody>
</speak>

No se pueden utilizar las etiquetas <prosody> con el atributo rate dentro de una etiqueta <prosody amazon:max-duration>. Esto se debe a que ambas afectan a la velocidad a la que se dicta el texto.

En el ejemplo siguiente, Amazon Polly omite la etiqueta <prosody rate="2">:


<speak>
     <prosody amazon:max-duration="7500ms">
          Human speech is a powerful way to communicate.
      
          <prosody rate="2">
               Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
          </prosody>
     </prosody>
</speak>

Pausas y max-duration

Cuando se utiliza la etiqueta max-duration, puede insertar pausas en el texto. Sin embargo, Amazon Polly incluye la longitud de la pausa al calcular la duración máxima del fragmento de voz. Además, Amazon Polly conserva las pausas breves que se producen cuando hay comas y puntos en un fragmento y las incluye en la duración máxima.

Por ejemplo, en el siguiente bloque, la interrupción de 600 milisegundos y la interrupción provocada por comas y puntos se produce en el fragmento de texto de 8 segundos:


<speak>
     <prosody amazon:max-duration="8s">
          Human speech is a powerful way to communicate.
          <break time="600ms"/>
          Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
     </prosody>
</speak>