Ejemplo de marcas de voz sin SSML

Modo de enfoque

Ejemplo de marcas de voz sin SSML - Amazon Polly

En el ejemplo siguiente se muestra el aspecto aproximado que tendrán en su pantalla los metadatos de la frase "Mary had a little lamb" solicitados. Por simplificar, no se han incluido las marcas de voz SSML en el ejemplo.

El siguiente AWS CLI ejemplo está formateado para Unix, Linux y macOS. En Windows, sustituya la barra invertida (\) del carácter de continuación de Unix al final de cada línea por un signo de intercalación (^) y utilice comillas completas (") alrededor del texto introducido con comillas simples (') para las etiquetas interiores.


aws polly synthesize-speech \
  --output-format json \
  --voice-id Joanna \
  --text 'Mary had a little lamb.' \
  --speech-mark-types='["viseme", "word", "sentence"]' \
  MaryLamb.txt

Si realiza esta solicitud, Amazon Polly devuelve lo siguiente en el archivo .txt:


{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."}
{"time":6,"type":"word","start":0,"end":4,"value":"Mary"}
{"time":6,"type":"viseme","value":"p"}
{"time":73,"type":"viseme","value":"E"}
{"time":180,"type":"viseme","value":"r"}
{"time":292,"type":"viseme","value":"i"}
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
{"time":373,"type":"viseme","value":"k"}
{"time":460,"type":"viseme","value":"a"}
{"time":521,"type":"viseme","value":"t"}
{"time":604,"type":"word","start":9,"end":10,"value":"a"}
{"time":604,"type":"viseme","value":"@"}
{"time":643,"type":"word","start":11,"end":17,"value":"little"}
{"time":643,"type":"viseme","value":"t"}
{"time":739,"type":"viseme","value":"i"}
{"time":769,"type":"viseme","value":"t"}
{"time":799,"type":"viseme","value":"t"}
{"time":882,"type":"word","start":18,"end":22,"value":"lamb"}
{"time":882,"type":"viseme","value":"t"}
{"time":964,"type":"viseme","value":"a"}
{"time":1082,"type":"viseme","value":"p"}

En este resultado, cada parte del texto está dividido en función de las marcas de voz:

Por un lado, la frase "Mary had a little lamb".
Por otro lado, cada palabra del texto: "Mary", "had", "a", "little" y "lamb".
Por último, el visema de cada sonido de la secuencia de audio correspondiente: "p", "E", "r", "i", etc. Para obtener más información sobre los visemas, consulte Visemas y Amazon Polly.