As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O Amazon Polly retorna objetos de marca de fala em um fluxo JSON delimitado por linha. Um objeto de marca de fala contém os seguintes campos:
-
time – a data e a hora em milissegundos desde o início do fluxo de áudio correspondente
-
Tipo: tipo de marca de fala (sentença, palavra, visema ou ssml).
-
Início: deslocamento em bytes do início do objeto no texto de entrada (não inclui marcas visema)
-
Término: deslocamento em bytes (não caracteres) do fim do objeto no texto de entrada (não inclui marcas viseme)
-
value – isso varia de acordo com o tipo de marca de fala
SSML: tag <mark> de SSML
viseme: o nome do visema
word ou sentence: uma substring do texto de entrada, conforme delimitado pelos campos de início e fim
Por exemplo, o Amazon Polly gera o seguinte objeto de marca da fala word
do texto "Maria tinha um carneirinho":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
A palavra descrita ("had") começa 373 milissegundos após o fluxo de áudio começar, e começa no byte 5 e termina no byte 8 do texto de entrada.
nota
Esses metadados são para a voice-id Joanna
. Se você usar outra voz com o mesmo texto de entrada, os metadados do texto podem ser diferente.