Saída da marca de fala

O Amazon Polly retorna objetos de marca de fala em um fluxo JSON delimitado por linha. Um objeto de marca de fala contém os seguintes campos:

time – a data e a hora em milissegundos desde o início do fluxo de áudio correspondente
Tipo: tipo de marca de fala (sentença, palavra, visema ou ssml).
Início: deslocamento em bytes do início do objeto no texto de entrada (não inclui marcas visema)
Término: deslocamento em bytes (não caracteres) do fim do objeto no texto de entrada (não inclui marcas viseme)
value – isso varia de acordo com o tipo de marca de fala
- SSML: tag <mark> de SSML
- viseme: o nome do visema
- word ou sentence: uma substring do texto de entrada, conforme delimitado pelos campos de início e fim

Por exemplo, o Amazon Polly gera o seguinte objeto de marca da fala word do texto "Maria tinha um carneirinho":


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

A palavra descrita ("had") começa 373 milissegundos após o fluxo de áudio começar, e começa no byte 5 e termina no byte 8 do texto de entrada.

Esses metadados são para a voice-id Joanna. Se você usar outra voz com o mesmo texto de entrada, os metadados do texto podem ser diferente.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Visemas e Amazon Polly

Solicitar marcas de fala