Salida de marcas de voz - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Salida de marcas de voz

Amazon Polly devuelve los objetos de marcas de voz en una secuencia JSON delimitada por saltos de línea. Los objetos de marca de voz tienen los siguientes campos:

  • time: marca temporal en milisegundos que indica el comienzo de la secuencia de audio correspondiente.

  • type: tipo de marca de voz (frase, palabra, visema o ssml)

  • start: desplazamiento en bytes (no caracteres) del inicio del objeto en el texto de entrada (sin incluir marcas de visemas)

  • end: desplazamiento en bytes (no caracteres) del final del objeto en el texto de entrada (sin incluir marcas de visemas)

  • value: varía en función del tipo de marca de voz.

    • SSML: etiqueta SSML <mark>.

    • viseme: nombre del visema

    • word o sentence: subcadena del texto de entrada delimitada por los campos start y end.

Por ejemplo, Amazon Polly genera el objeto de marca de voz word siguiente a partir del texto "Mary had a little lamb":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La palabra descrita ("had") comienza 373 milisegundos después de que comience la secuencia de audio; además, se inicia en el byte 5 y termina en el byte 8 del texto de entrada.

nota

Estos metadatos corresponden al ID de voz Joanna. Si utiliza otra voz con el mismo texto de entrada, los metadatos pueden variar.