Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Salida de marcas de voz
Amazon Polly devuelve los objetos de marcas de voz en una secuencia JSON delimitada por saltos de línea. Los objetos de marca de voz tienen los siguientes campos:
-
time: marca temporal en milisegundos que indica el comienzo de la secuencia de audio correspondiente.
-
type: tipo de marca de voz (frase, palabra, visema o ssml)
-
start: desplazamiento en bytes (no caracteres) del inicio del objeto en el texto de entrada (sin incluir marcas de visemas)
-
end: desplazamiento en bytes (no caracteres) del final del objeto en el texto de entrada (sin incluir marcas de visemas)
-
value: varía en función del tipo de marca de voz.
SSML: etiqueta SSML <mark>.
viseme: nombre del visema
word o sentence: subcadena del texto de entrada delimitada por los campos start y end.
Por ejemplo, Amazon Polly genera el objeto de marca de voz word
siguiente a partir del texto "Mary had a little lamb":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
La palabra descrita ("had") comienza 373 milisegundos después de que comience la secuencia de audio; además, se inicia en el byte 5 y termina en el byte 8 del texto de entrada.
nota
Estos metadatos corresponden al ID de voz Joanna
. Si utiliza otra voz con el mismo texto de entrada, los metadatos pueden variar.