Sortie Speech Mark

Mode de mise au point

Sortie Speech Mark - Amazon Polly

Amazon Polly renvoie les objets de marque vocale dans un flux JSON délimité par des lignes. Chaque objet de marque vocale contient les champs suivants :

time — l'horodatage en millisecondes à compter du début du flux audio correspondant
type : type de marque vocale (phrase, mot, visème ou ssml)
début : décalage en octets (et non en caractères) du début de l'objet dans le texte saisi (sans compter les marques de visème)
fin : le décalage en octets (et non en caractères) de la fin de l'objet dans le texte saisi (sans compter les marques de visème)
valeur : elle varie en fonction du type de marque vocale
- SSML : balise SSML <mark>
- viseme : le nom du visème
- word ou sentence : sous-chaîne du texte d'entrée, telle que délimitée par les champs de début et de fin

Par exemple, Amazon Polly génère l'objet de marque word vocale suivant à partir du texte « Mary had a little lamb » :


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

Le mot décrit (« had ») commence 373 millisecondes après le début du flux audio à l'octet 5 et se termine à l'octet 8 du texte d'entrée.

Note

Cette métadonnée correspond au voice-id Joanna. Si vous utilisez une autre voix avec le même texte d'entrée, la métadonnée peut être différente.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.