Salida de marcas de voz

Amazon Polly devuelve los objetos de marcas de voz en una secuencia JSON delimitada por saltos de línea. Los objetos de marca de voz tienen los siguientes campos:

time: marca temporal en milisegundos que indica el comienzo de la secuencia de audio correspondiente.
type: tipo de marca de voz (frase, palabra, visema o ssml)
start: desplazamiento en bytes (no caracteres) del inicio del objeto en el texto de entrada (sin incluir marcas de visemas)
end: desplazamiento en bytes (no caracteres) del final del objeto en el texto de entrada (sin incluir marcas de visemas)
value: varía en función del tipo de marca de voz.
- SSML: etiqueta SSML <mark>.
- viseme: nombre del visema
- word o sentence: subcadena del texto de entrada delimitada por los campos start y end.

Por ejemplo, Amazon Polly genera el objeto de marca de voz word siguiente a partir del texto "Mary had a little lamb":


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La palabra descrita ("had") comienza 373 milisegundos después de que comience la secuencia de audio; además, se inicia en el byte 5 y termina en el byte 8 del texto de entrada.

nota

Estos metadatos corresponden al ID de voz Joanna. Si utiliza otra voz con el mismo texto de entrada, los metadatos pueden variar.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Visemas y Amazon Polly

Solicitud de marcas de voz