Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Saída da marca de fala

Modo de foco
Saída da marca de fala - Amazon Polly

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O Amazon Polly retorna objetos de marca de fala em um fluxo JSON delimitado por linha. Um objeto de marca de fala contém os seguintes campos:

  • time – a data e a hora em milissegundos desde o início do fluxo de áudio correspondente

  • Tipo: tipo de marca de fala (sentença, palavra, visema ou ssml).

  • Início: deslocamento em bytes do início do objeto no texto de entrada (não inclui marcas visema)

  • Término: deslocamento em bytes (não caracteres) do fim do objeto no texto de entrada (não inclui marcas viseme)

  • value – isso varia de acordo com o tipo de marca de fala

    • SSML: tag <mark> de SSML

    • viseme: o nome do visema

    • word ou sentence: uma substring do texto de entrada, conforme delimitado pelos campos de início e fim

Por exemplo, o Amazon Polly gera o seguinte objeto de marca da fala word do texto "Maria tinha um carneirinho":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

A palavra descrita ("had") começa 373 milissegundos após o fluxo de áudio começar, e começa no byte 5 e termina no byte 8 do texto de entrada.

nota

Esses metadados são para a voice-id Joanna. Se você usar outra voz com o mesmo texto de entrada, os metadados do texto podem ser diferente.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.