Balises SSML prises en charge - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Balises SSML prises en charge

Amazon Polly prend en charge les balises SSML suivantes :

Action Balise SSML Disponibilité grâce à des voix neuronales Disponibilité avec des voix longues Disponibilité avec des voix génératives

Ajouter une pause

<break>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Souligner les mots

<emphasis>

Non disponible

Non disponible

Non disponible

Spécifier une autre langue pour des mots spécifiques

<lang>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Placer une balise personnalisée dans votre texte

<mark>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Ajouter une pause entre les paragraphes

<p>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Utilisation de la prononciation phonétique

<phoneme>

Disponibilité totale

Disponibilité totale

Non disponible

Contrôle du volume, de la fréquence de parole et de la tonalité

<prosody>

Disponibilité partielle

Disponibilité partielle

Non disponible

Définition d'une durée maximale pour la synthèse vocale

<prosody amazon:max-duration>

Non disponible

Non disponible

Non disponible

Ajouter une pause entre les phrases

<s>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Contrôler la façon dont des types particuliers de mots sont prononcés

<say-as>

Disponibilité partielle

Disponibilité partielle

Disponibilité partielle

Identification du texte amélioré par le protocole SSL

<speak>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Prononciation d'acronymes et d'abréviations

<sub>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Améliorer la prononciation en spécifiant des parties du discours

<w>

Disponibilité totale

Disponibilité totale

Disponibilité totale

Ajouter le son de la respiration

<amazon:auto-breaths>

Non disponible

Non disponible

Non disponible

Style de diction d’un présentateur de journal

<amazon:domain name="news">

Sélectionner des voix neurales uniquement

Non disponible

Non disponible

Ajout d'une compression de plage dynamique

<amazon:effect name="drc">

Disponibilité totale

Disponibilité totale

Non disponible

Parler doucement

<amazon:effect phonation="soft">

Non disponible

Non disponible

Non disponible

Contrôle du timbre

<amazon:effet > vocal-tract-length

Non disponible

Non disponible

Non disponible

Chuchotement

<amazon:effect name="whispered">

Non disponible

Non disponible

Non disponible

Note

Si vous utilisez des balises SSML non prises en charge au format standard, neuronal ou long, vous recevrez un message d'erreur.

Identification du texte amélioré par le protocole SSL

<speak>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

La <speak> balise est l'élément racine de tout le texte Amazon Polly SSML. L'ensemble du texte amélioré par SSML doit être délimité par une paire de balises <speak>.

<speak>Mary had a little lamb.</speak>

Ajouter une pause

<break>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Pour ajouter une pause à votre texte, utilisez la balise <break>. Vous pouvez définir une pause basée sur l'impact (l'équivalent de la pause après une virgule, une phrase ou un paragraphe) ou vous pouvez la définir avec une durée spécifique en secondes ou millisecondes. Si vous ne spécifiez aucun attribut pour déterminer la durée de la pause, Amazon Polly utilise la valeur par défaut<break strength="medium"/>, qui ajoute une pause de la durée d'une pause après une virgule.

Valeurs de l'attribut strength :

  • none : aucune pause. Utilisez none pour supprimer une pause habituelle (par exemple, après un point).

  • x-weak : équivaut à none, aucune pause.

  • weak : définit une pause de la même durée que la pause après une virgule.

  • medium : équivaut à weak.

  • strong : définit une pause de la même durée que la pause après une phrase.

  • x-strong : définit une pause de la même durée que la pause après un paragraphe.

Valeurs de l'attribut time :

  • [number]s : durée de la pause, en secondes. La durée maximale est 10s.

  • [number]ms : durée de la pause, en millisecondes. La durée maximale est 10000ms.

Par exemple :

<speak> Mary had a little lamb <break time="3s"/>Whose fleece was white as snow. </speak>

Si vous n'utilisez aucun attribut avec la balise break, le résultat varie en fonction du texte :

  • Si aucun autre signe de ponctuation n'est placé à côté de la balise break, une <break strength="medium"/> (pause de la longueur d'une virgule) est créée.

  • Si la balise est placée à côté d'une virgule, la balise est mise à niveau vers <break strength="strong"/> (pause de la longueur d'une phrase).

  • Si la balise est placée à côté d'un point, la balise est mise à niveau vers <break strength="x-strong"/> (pause de la longueur d'un paragraphe).

Souligner les mots

<emphasis>

Cette balise n'est prise en charge que par le format TTS standard.

Pour insister sur des mots, utilisez la balise <emphasis>. Souligner des mots modifie le débit et le volume de parole. Une plus grande emphase permet à Amazon Polly de prononcer le texte plus fort et plus lentement. Moins vous soulignez, et plus ce sera bas et rapide. Pour spécifier le degré d'importance, utilisez l'attribut level.

Valeurs de l'attribut level :

  • Strong : augmente le volume et ralentit le débit de parole pour que l'enregistrement soit plus fort et plus lent.

  • Moderate : augmente le volume et ralentit le débit de parole, mais moins que strong. La valeur par défaut Moderate.

  • Reduced : diminue le volume et accélère le débit de parole. La voix est plus douce et plus rapide.

Note

Le débit de parole et le volume de base pour une voix sont compris entre les niveaux moderate et reduced.

Par exemple :

<speak> I already told you I <emphasis level="strong">really like</emphasis> that person. </speak>

Spécifier une autre langue pour des mots spécifiques

<lang>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Spécifiez une autre langue pour un mot, une expression ou une phrase spécifique, à l'aide de la balise <lang>. En général, les expressions et les mots étrangers sont mieux restitués lorsqu'ils sont délimités par une paire de balises <lang>. Pour spécifier la langue, utilisez l'attribut xml:lang. Pour visualiser la liste complète des langues disponibles, consultez Langues utilisées dans Amazon Polly.

À moins que vous n'appliquiez la balise <lang>, tous les mots figurant dans le texte d'entrée sont restitués dans la langue de la voix spécifiée dans voice-id. Si vous appliquez la balise <lang>, les mots sont prononcés dans cette langue.

Par exemple, s'il s'voice-idagit de Joanna (qui parle anglais américain), Amazon Polly prononce ce qui suit dans la voix de Joanna sans accent français :

<speak> Je ne parle pas français. </speak>

Si vous utilisez la voix de Joanna avec le <lang> tag, Amazon Polly prononce la phrase dans la voix de Joanna dans un français aux accents américains :

<speak> <lang xml:lang="fr-FR">Je ne parle pas français.</lang>. </speak>

Comme Joanna n'est pas une voix de personne de langue maternelle française, la prononciation est basée sur sa langue maternelle, à savoir l'anglais des États-Unis. Par exemple, alors que le r du mot français est prononcé en parfait français avec un roulement uvulaire /R/, ce phonème est prononcé comme un /r/ par la voix de Joanna qui parle l'anglais des États-Unis.

Si vous utilisez le nom voice-id de Giorgio, qui parle italien, avec le texte suivant, Amazon Polly prononce la phrase dans la voix de Giorgio avec une prononciation italienne :

<speak> Mi piace Bruce Springsteen. </speak>

Si vous utilisez la même voix avec le <lang> tag suivant, Amazon Polly prononce Bruce Springsteen dans un anglais accentué par l'italien :

<speak> Mi piace <lang xml:lang="en-US">Bruce Springsteen.</lang> </speak>

Cette balise peut également être utilisée pour remplacer l'DefaultLangCodeoption optionnelle lors de la synthèse vocale. Toutefois, cette opération nécessite que vous formatiez votre texte à l'aide du langage SSML.

Placer une balise personnalisée dans votre texte

<mark>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Pour insérer une balise personnalisée dans le texte, <mark>utilisez-la. Amazon Polly n'effectue aucune action sur la balise, mais renvoie l'emplacement de la balise dans les métadonnées SSML. Cette balise peut être n'importe quel élément que vous souhaitez appeler, tant qu'il respecte le format suivant :

<mark name="tag_name"/>

Par exemple, supposons que le nom de la balise soit « animal » et que le texte d'entrée soit :

<speak> Mary had a little <mark name="animal"/>lamb. </speak>

Amazon Polly peut renvoyer les métadonnées SSML suivantes :

{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}

Ajouter une pause entre les paragraphes

<p>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Pour ajouter une pause entre les paragraphes de votre texte, utilisez la balise <p>. L'utilisation de cette balise permet de marquer une pause plus longue que celle habituellement utilisée par les locuteurs natifs après une virgule ou à la fin d'une phrase. Utilisez la balise <p> pour délimiter le paragraphe :

<speak> <p>This is the first paragraph. There should be a pause after this text is spoken.</p> <p>This is the second paragraph.</p> </speak>

Cela revient à spécifier une pause à l'aide de <break strength="x-strong"/>.

Utilisation de la prononciation phonétique

<phoneme>

Cette balise est prise en charge par les formats TTS longs, neuronaux et standard.

<phoneme>Pour qu'Amazon Polly utilise la prononciation phonétique pour un texte spécifique, utilisez la balise.

Deux attributs sont requis avec la balise <phoneme>. Elles indiquent l'alphabet phonétique utilisé par Amazon Polly et les symboles phonétiques de la prononciation corrigée :

  • alphabet

    • ipa : indique que l'alphabet phonétique international (API) sera utilisé.

    • x-sampa : indique que l'alphabet X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet) sera utilisé.

  • ph

Avec cette <phoneme> balise, Amazon Polly utilise la prononciation spécifiée par l'phattribut au lieu de la prononciation standard associée par défaut à la langue utilisée par la voix sélectionnée.

Par exemple, le mot « pecan » peut être prononcé de deux façons. Dans l'exemple suivant, une prononciation différente est attribuée à « noix de pécan » sur chaque ligne. Amazon Polly prononce les noix de pécan comme indiqué dans les ph attributs, au lieu d'utiliser la prononciation par défaut.

Alphabet IPA (International Phonetic Alphabet)

<speak> You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. I say, <phoneme alphabet="ipa" ph="ˈpi.kæn">pecan</phoneme>. </speak>

Alphabet X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet).

<speak> You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>. I say, <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>. </speak>

Le chinois mandarin utilise le pinyin pour la prononciation phonétique.

Pinyin

<speak> 你说 <phoneme alphabet="x-amazon-pinyin" ph="bo2">薄</phoneme>。 我说 <phoneme alphabet="x-amazon-pinyin" ph="bao2">薄</phoneme>。 </speak>

Le japonais utilise le yomigana et la prononciation kana.

Yomigana

<speak> 名前は<phoneme alphabet="x-amazon-yomigana" ph="ひろかず">浩一</phoneme>です。 名前は<phoneme alphabet="x-amazon-yomigana" ph="ヒロカズ">浩一</phoneme>です。 名前は<phoneme alphabet="x-amazon-yomigana" ph="Hirokazu">浩一</phoneme>です。 </speak>

Prononciation Kana

<speak> 名前は<phoneme alphabet="x-amazon-pron-kana" ph="ヒロ'カズ">浩一</phoneme>です。 </speak>

Contrôle du volume, de la fréquence de parole et de la tonalité

<prosody>

Les attributs des balises Prosody sont entièrement pris en charge par les voix TTS standard. Les voix neuronales volume et longues prennent en charge les rate attributs et, mais pas l'pitchattribut.

Pour contrôler le volume, le débit ou la tonalité de la voix que vous avez sélectionnée, utilisez la balise prosody.

Le volume, le débit de parole et la tonalité dépendent de la voix sélectionnée. Outre les différences entre les voix pour les différentes langues, il existe des différences entre chaque voix parlant la même langue. C'est la raison pour laquelle, tandis que les attributs sont similaires dans toutes les langues, il existe de nettes variations d'une langue à l'autre et aucune valeur absolue n'est disponible.

La balise prosody possède trois attributs, chacun d'entre eux pouvant être défini à l'aide de plusieurs valeurs. Chaque attribut utilise la même syntaxe :

<prosody attribute="value"></prosody>

  • volume

    • default : restaure le volume au niveau par défaut de la voix actuelle.

    • silent, x-soft, soft, medium, loud, x-loud : Définit le volume sur une valeur prédéfinie pour la voix actuelle.

    • +ndB, -ndB : change le volume par rapport au niveau actuel. La valeur +0dB correspond à l'absence de modification, la valeur +6dB à environ deux fois le volume actuel et la valeur -6dB à environ la moitié du volume actuel.

    Par exemple, vous pouvez définir le volume d'un passage comme suit :

    <speak> Sometimes it can be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>

    Vous pouvez également le définir de la façon suivante :

    <speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of interacting with your audience.</prosody> </speak>
  • rate

    • x-slow,slow,medium,fast,x-fast. Définit la tonalité à une valeur prédéfinie pour la voix sélectionnée.

    • n% : changement de pourcentage non négatif du débit de parole. Par exemple, une valeur de 100 % signifie que le débit de parole n'a pas été modifié, une valeur de 200 % correspond à un débit de parole égal au double du débit par défaut, et une valeur de 50 % correspond à un débit de parole égal à la moitié du débit par défaut. Cette valeur peut être comprise entre 20 et 200 %.

    Par exemple, vous pouvez définir le débit de parole d'un passage comme suit :

    <speak> For dramatic purposes, you might wish to <prosody rate="slow">slow up the speaking rate of your text.</prosody> </speak>

    Vous pouvez également le définir de la façon suivante :

    <speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>
  • pitch

    • default : restaure la tonalité au niveau par défaut de la voix actuelle.

    • x-low, low, medium, high, x-high : définit la tonalité sur une valeur prédéfinie pour la voix actuelle.

    • +n% ou -n% : ajuste la tonalité sous forme d'un pourcentage relatif. Par exemple, la valeur +0% correspond à l'absence de modification de la tonalité de base, la valeur +5% attribue une tonalité de base un peu plus élevée et la valeur -5% se traduit par une tonalité de base un peu plus basse.

    Par exemple, vous pouvez définir la tonalité d'un passage comme suit :

    <speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>

    Vous pouvez également le définir de la façon suivante :

    <speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak>

La balise <prosody> doit contenir au moins un attribut, mais peut en inclure davantage.

<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody> </speak>

Elle peut également être combinée avec des balises imbriquées, comme suit :

<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>

Définition d'une durée maximale pour la synthèse vocale

<prosody amazon:max-duration>

Cette balise est actuellement prise en charge uniquement par le format TTS standard.

Pour contrôler la durée d'un discours lors de sa synthèse, utilisez la balise <prosody> avec l'attribut amazon:max-duration.

La durée de la synthèse vocale varie légèrement selon la voix sélectionnée. Par conséquent, il peut être difficile de faire correspondre la synthèse vocale à une présentation visuelle ou toute autre animation nécessitant un chronométrage précis. Ce problème est accentué pour les applications de traduction, car le temps nécessaire à la prononciation de certaines phrases peut varier de manière significative entre différentes langues.

La balise <prosody amazon:max-duration> adapte la synthèse vocale à l'intervalle de temps que vous souhaitez définir (la durée).

Cette balise utilise la syntaxe suivante :

<prosody amazon:max-duration="time duration">

La balise <prosody amazon:max-duration> vous permet de spécifier la durée en secondes ou en millisecondes :

  • ns : durée maximale en secondes

  • nms : durée maximale en millisecondes

Par exemple, le texte parlé suivant a une durée maximale de 2 secondes :

<speak> <prosody amazon:max-duration="2s"> Human speech is a powerful way to communicate. </prosody> </speak>

Le texte placé dans la balise ne dépasse pas la durée spécifiée. Si la voix ou la langue choisie prend normalement plus de temps que cette durée, Amazon Polly accélère le discours afin qu'il corresponde à la durée spécifiée.

Si la durée spécifiée est plus longue que nécessaire pour lire le texte à un rythme normal, Amazon Polly lit le discours normalement. Il ne ralentit pas le discours et n'ajoute pas de pauses. Ainsi, la synthèse vocale est plus courte que prévue.

Note

Amazon Polly n'augmente pas la vitesse plus de 5 fois par rapport au taux normal. Si le texte est énoncé à une vitesse encore plus rapide, il est probable que celui-ci ne sera pas intelligible. Si un discours ne peut pas être énoncé dans la durée que vous avez spécifiée, même lorsqu'il est accéléré au maximum, l'audio sera accéléré, mais durera plus longtemps que la durée spécifiée.

Vous pouvez inclure une ou plusieurs phrases dans une balise <prosody amazon:max-duration> et utiliser plusieurs balises <prosody amazon:max-duration> dans votre texte.

Par exemple :

<speak> <prosody amazon:max-duration="2400ms"> Human speech is a powerful way to communicate. </prosody> <break strength="strong"/> <prosody amazon:max-duration="5100ms"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> <break strength="strong"/> <prosody amazon:max-duration="8900ms"> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>

L'utilisation de la <prosody amazon:max-duration> balise peut augmenter le temps de latence lorsqu'Amazon Polly renvoie une synthèse vocale. Le temps de latence dépend du passage et de sa longueur. Nous vous recommandons de privilégier des textes composés de passages relativement courts.

Limites

Des limitations s'appliquent à votre utilisation de la balise <prosody amazon:max-duration> à son utilisation avec d'autres balises SSML :

  • Le texte placé à l'intérieur d'une balise <prosody amazon:max-duration> ne peut pas comporter plus de 1 500 caractères.

  • Vous ne pouvez pas imbriquer de balises <prosody amazon:max-duration>. Si vous insérez une <prosody amazon:max-duration> étiquette dans une autre, Amazon Polly ignore la balise intérieure.

    Par exemple, dans le code suivant, la balise <prosody amazon:max-duration="5s"> est ignorée :

    <speak> <prosody amazon:max-duration="16s"> Human speech is a powerful way to communicate. <prosody amazon:max-duration="5s"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody> </speak>
  • Vous ne pouvez pas utiliser les balises <prosody> avec l'attribut rate dans une balise <prosody amazon:max-duration>. En effet, les deux balises affectent la vitesse à laquelle le texte est énoncé.

    Dans l'exemple suivant, Amazon Polly ignore le tag : <prosody rate="2">

    <speak> <prosody amazon:max-duration="7500ms"> Human speech is a powerful way to communicate. <prosody rate="2"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </prosody> </speak>

Pauses et max-duration

L'utilisation d'une balise max-duration ne vous empêche pas d'insérer des pauses dans votre texte. Amazon Polly inclut toutefois la durée de la pause lors du calcul de la durée maximale de la parole. En outre, Amazon Polly préserve les courtes pauses qui se produisent lorsque des virgules et des points sont placés dans un passage et les inclut dans la durée maximale.

Par exemple, dans le bloc suivant, la pause de 600 millisecondes et les pauses générées par la présence de virgules et de points s'opèrent dans le discours de 8 secondes :

<speak> <prosody amazon:max-duration="8s"> Human speech is a powerful way to communicate. <break time="600ms"/> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </speak>

Ajouter une pause entre les phrases

<s>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Pour ajouter une pause entre des lignes ou des phrases de votre texte, utilisez la balise <s>. L'utilisation de cette balise revient à :

  • Terminer une phrase par un point (.)

  • Spécifier une pause avec <break strength="strong"/>

Contrairement à la balise <break>, la balise <s> englobe la phrase. Cela est utile pour synthétiser un discours organisé en lignes, plutôt qu'en phrases, tel qu'un poème.

Dans l'exemple suivant, la balise <s> crée une courte pause après la première et la deuxième phrases. La phrase finale n'a pas de balise <s>, mais est également suivie d'une courte pause, car elle se termine par un point.

<speak> <s>Mary had a little lamb</s> <s>Whose fleece was white as snow</s> And everywhere that Mary went, the lamb was sure to go. </speak>

Contrôler la façon dont des types particuliers de mots sont prononcés

<say-as>

À l'exception de l'charactersoption, la <say-as> balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard. Notez que si Amazon Polly utilise une voix neuronale et rencontre le <say-as> tag avec l'charactersoption lors de l'exécution, la phrase affectée sera synthétisée à l'aide de la voix standard correspondante. Cependant, la phrase affectée sera toujours facturée comme si elle utilisait une voix neuronale.

Utilisez la <say-as> balise associée à l'interpret-asattribut pour indiquer à Amazon Polly comment prononcer certains caractères, mots et chiffres. Cela vous permet de fournir un contexte supplémentaire afin d'éliminer toute ambiguïté quant à la manière dont Amazon Polly doit afficher le texte.

La <say-as> balise utilise un attributinterpret-as, qui utilise un certain nombre de valeurs disponibles possibles. Chacune d'elles utilise la même syntaxe :

<say-as interpret-as="value">[text to be interpreted]</say-as>

Les valeurs suivantes sont disponibles avec interpret-as :

  • charactersou spell-out : épelle chaque lettre du texte, comme dans a-b-c.

    Note

    Cette option n'est actuellement pas prise en charge pour les voix neuronales. Si vous utilisez une voix neuronale et que ce code SSML est détecté par Amazon Polly au moment de l'exécution, la phrase affectée sera synthétisée à l'aide de la voix standard correspondante. Notez toutefois que cette phrase sera toujours facturée comme si elle utilisait une voix neuronale.

  • cardinal ou number : interprète le texte numérique comme nombre cardinal, par exemple 1 234.

  • ordinal : interprète le texte numérique comme nombre ordinal, par exemple 1 234ème.

  • digits : énonce chaque chiffre séparément, par exemple 1-2-3-4.

  • fraction : interprète le texte numérique comme une fraction. Cela fonctionne aussi bien pour les fractions courantes comme 3/20 que pour les fractions mixtes comme 2 ½. Voir ci-dessous pour plus d'informations.

  • unit : interprète un texte numérique comme une mesure. Cette valeur doit être suivie d'un nombre ou d'une fraction, puis d'une unité, sans espace intermédiaire comme dans 1/2inch, ou simplement d'une unité, comme dans 1meter.

  • date : interprète le texte comme une date. Le format de la date doit être spécifié avec l'attribut de format. Voir ci-dessous pour plus d'informations.

  • time : interprète le texte numérique comme une durée, en minutes et secondes, comme dans 1'21".

  • address : interprète le texte comme une partie d'une adresse postale.

  • expletive : signale que le contenu inclus dans la balise doit être exclu.

  • telephone : interprète le texte numérique comme un numéro de téléphone à 7 ou 10 chiffres, comme dans 2025551212. Vous pouvez également utiliser cette valeur pour traiter les numéros de poste téléphonique, comme dans 2025551212x345. Voir ci-dessous pour plus d'informations.

    Note

    Actuellement, l'option telephone n'est pas disponible pour toutes les langues. Cependant, elle est disponible pour les variantes de langue anglaise (en-AU, en-GB, en-IN, en-US et en-GB-WLS), les variantes de langue espagnole (es-ES, es-MX et es-US), les variantes de langue française (fr-FR et fr-CA) et les variantes de langue portugaise (pt-BR et pt-PT), ainsi que pour l'allemand (de-DE), l'italien (it-IT), le japonais (ja-JP) et le russe (ru-RU). Il convient également de noter que dans certains cas, des langues telles que l'arabe (arb) traitent automatiquement le numéro défini comme un numéro de téléphone et n'implémentent donc pas réellement la balise telephone SSML.

Fractions

Amazon Polly interprète les valeurs de la say-as balise dotées de l'interpret-as="fraction"attribut comme des fractions communes. La syntaxe suivante est utilisée pour les fractions :

  • Fraction

    Syntaxe : nombre cardinal/nombre cardinal, par exemple 2/9.

    Ainsi, <say-as interpret-as="fraction">2/9</say-as> est prononcé « deux neuvièmes ».

  • Nombre mixte non négatif

    Syntaxe : nombre cardinal+nombre cardinal/nombre cardinal, par exemple 3+1/2.

    Ainsi, <say-as interpret-as="fraction">3+1/2</say-as> est prononcé « trois et demi ».

    Note

    Il doit y avoir un + écart entre le « 3 » et le « 1/2 ». Amazon Polly ne prend pas en charge un nombre mixte sans le+, tel que « 3 1/2 ».

Dates

Lorsque interpret-as a la valeur date, vous devez aussi indiquer le format de la date.

Cette balise utilise la syntaxe suivante :

<say-as interpret-as="date" format="format">[date]</say-as>

Par exemple :

<speak> I was born on <say-as interpret-as="date" format="mdy">12-31-1900</say-as>. </speak>

Les formats suivants peuvent être utilisés avec l'attribut date.

  • mdy: onth-day-year M.

  • dmy: ay-month-year D.

  • ymd: Ouiear-month-day.

  • md : mois-jour.

  • dm : jour-mois.

  • ym : année-mois.

  • my : mois-année.

  • d: jour.

  • m: mois.

  • y: Année.

  • yyyymmdd: Ouiear-month-day. Si vous utilisez ce format, vous pouvez faire en sorte qu'Amazon Polly ignore certaines parties de la date à l'aide de points d'interrogation.

    Par exemple, Amazon Polly affiche ce qui suit comme « 22 septembre » :

    <say-as interpret-as="date">????0922</say-as>

    Format n'est pas nécessaire.

Téléphone

Amazon Polly essaie d'interpréter correctement le texte que vous fournissez en fonction de sa mise en forme, même sans le <say-as> tag. Par exemple, si votre texte inclut « 202-555-1212 », Amazon Polly l'interprète comme un numéro de téléphone à 10 chiffres et indique chaque chiffre individuellement, avec une courte pause pour chaque tiret. Dans ce cas, il n'est pas nécessaire d'utiliser <say-as interpret-as="telephone">. Toutefois, si vous fournissez le texte « 2025551212 » et que vous souhaitez qu'Amazon Polly le prononce sous forme de numéro de téléphone, vous devez le spécifier. <say-as interpret-as="telephone">

La logique d'interprétation de chaque élément est propre à la langue. Par exemple, les numéros de téléphone ne se prononcent pas de la même façon en anglais américain et en anglais britannique (en anglais britannique, les chiffres identiques qui se suivent sont regroupés, comme dans « double five » ou « triple four »). Pour voir la différence, testez l'exemple suivant avec une voix américaine et une voix britannique :

<speak> Richard's number is <say-as interpret-as="telephone">2122241555</say-as> </speak>

Prononciation d'acronymes et d'abréviations

<sub>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Utilisez la balise <sub> avec l'attribut alias pour remplacer un mot (ou une prononciation) par le texte sélectionné, comme un acronyme ou une abréviation.

La syntaxe suivante est utilisée :

<sub alias="new word">abbreviation</sub>

Dans l'exemple suivant, le nom « Mercury » est remplacé par le symbole chimique de l'élément afin que le contenu audio soit plus clair.

<speak> My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny. </speak>

Améliorer la prononciation en spécifiant des parties du discours

<w>

Cette balise est prise en charge par les formats TTS génératifs, longs, neuronaux et standard.

Vous pouvez utiliser la balise <w> pour personnaliser la prononciation des mots en spécifiant la partie vocale ou une autre signification du mot. Pour cela, utilisez l'attribut role.

Cette balise utilise la syntaxe suivante :

<w role="attribute">text</w>

Les valeurs admises pour l'attribut role sont les suivantes :

Pour spécifier la partie vocale :

  • amazon:VB : interprète le mot comme étant un verbe (au présent simple).

  • amazon:VBD: interprète le mot comme un verbe au passé.

  • amazon:DT: interprète le mot comme un déterminant.

  • amazon:IN: interprète le mot comme une préposition.

  • amazon:JJ: interprète le mot comme un adjectif.

  • amazon:NN: interprète le mot comme un nom.

Par exemple, en fonction de sa partie vocale, la prononciation du mot « read » en anglais américain varie en fonction de la balise :

<speak> The word <say-as interpret-as="characters">read</say-as> may be interpreted as either the present simple form <w role="amazon:VB">read</w>, or the past participle form <w role="amazon:VBD">read</w>. </speak>

Pour spécifier une signification spécifique :

  • amazon:DEFAULT: utilise le sens par défaut du mot.

  • amazon:SENSE_1 : utilise le sens autre que par défaut du mot lorsque celui est présent. Par exemple, le nom « bass » est prononcé différemment en fonction de sa signification. La signification par défaut est la partie la plus basse de la gamme musicale. L'autre signification est une autre espèce de poisson, également appelée « bass » en anglais (« perche » en français), mais prononcée différemment. L'utilisation de <w role="amazon:SENSE_1">bass</w> reproduit, dans le texte audio, la prononciation du mot « bass » lorsqu'il désigne le poisson d'eau douce appelé « perche » en français.

Cette différence de prononciation et de signification peut être entendue si vous synthétisez les éléments suivants :

<speak> Depending on your meaning, the word <say-as interpret-as="characters">bass</say-as> may be interpreted as either a musical element: bass, or as its alternative meaning, a freshwater fish <w role="amazon:SENSE_1">bass</w>. </speak>
Note

Certaines langues peuvent avoir une autre sélection des parties vocales prises en charge.

Ajouter le son de la respiration

<amazon:breath> et <amazon:auto-breaths>

Cette balise n'est prise en charge que par le format TTS standard.

Un discours naturel inclut à la fois des mots prononcés correctement et des bruits de respiration. En ajoutant des bruits de respiration à la synthèse vocale, vous pouvez rendre un discours plus naturel. Les balises <amazon:breath> et <amazon:auto-breaths> fournissent des respirations. Vous avez les options suivantes :

  • Mode manuel : vous définissez l'emplacement, la longueur et le volume d'un bruit de respiration dans le texte

  • Mode automatique : Amazon Polly insère automatiquement les sons respiratoires dans la sortie vocale

  • Mode mixte : vous et Amazon Polly ajoutez des sons respiratoires

Mode manuel

En mode manuel, vous placez la balise <amazon:breath/> dans le texte d'entrée, à l'emplacement qui vous convient. Vous pouvez personnaliser la longueur et le volume des bruits de respiration avec les attributs duration et volume, respectivement :

  • duration : Contrôle la longueur de la respiration. Les valeurs valides sont: default, x-short, short, medium, long, x-long. La valeur par défaut est medium.

  • volume : Contrôle le volume sonore des bruits de respiration. Les valeurs valides sont: default, x-soft, soft, medium, loud, x-loud. La valeur par défaut est medium.

Note

La longueur et le volume exacts de chaque valeur d'attribut dépendent de la voix Amazon Polly utilisée.

Pour définir un bruit de respiration en utilisant les valeurs par défaut, utilisez <amazon:breath/> sans attribut.

Par exemple, pour utiliser des attributs pour définir une durée et un volume de respiration moyens, vous définissez les attributs comme suit :

<speak> Sometimes you want to insert only <amazon:breath duration="medium" volume="x-loud"/>a single breath. </speak>

Pour utiliser les valeurs par défaut, il vous suffit d'utiliser la balise :

<speak> Sometimes you need <amazon:breath/>to insert one or more average breaths <amazon:breath/> so that the text sounds correct. </speak>

Vous pouvez ajouter des bruits de respiration individuels dans un texte, de la manière suivante :

<speak> <amazon:breath duration="long" volume="x-loud"/> <prosody rate="120%"> <prosody volume="loud"> Wow! <amazon:breath duration="long" volume="loud"/> </prosody> That was quite fast. <amazon:breath duration="medium" volume="x-loud"/> I almost beat my personal best time on this track. </prosody> </speak>
Mode automatique

En mode automatique, vous utilisez le <amazon:auto-breaths> tag pour indiquer à Amazon Polly de créer automatiquement des bruits respiratoires à des intervalles appropriés. Vous pouvez définir la fréquence des intervalles, le volume et la durée. Placez la balise </amazon:auto-breaths> au début du texte auquel vous souhaitez appliquer à la respiration automatique, puis fermez la balise à la fin.

Note

Contrairement à la balise en mode manuel, <amazon:breath/>, la balise <amazon:auto-breaths> nécessite une balise de fermeture (</amazon:auto-breaths>).

Vous pouvez utiliser les attributs facultatifs suivants avec la balise <amazon:auto-breaths> :

  • volume : Contrôle le volume sonore des bruits de respiration. Les valeurs valides sont: default, x-soft, soft, medium, loud, x-loud. La valeur par défaut est medium.

  • frequency : Contrôle la fréquence des bruits de respiration dans le texte. Les valeurs valides sont: default, x-low, low, medium, high, x-high. La valeur par défaut est medium.

  • duration : Contrôle la longueur de la respiration. Les valeurs valides sont: default, x-short, short, medium, long, x-long. La valeur par défaut est medium.

Par défaut, la fréquence des bruits de respiration dépend du texte d'entrée. Toutefois, ils sont souvent présents après les virgules et les points.

Les exemples suivants montrent comment utiliser la balise <amazon:auto-breaths>. Pour choisir les options à utiliser pour votre contenu, copiez les exemples applicables sur la console Amazon Polly et écoutez les différences.

  • Utilisation du mode automatique sans paramètre facultatif.

    <speak> <amazon:auto-breaths>Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech- enabled products. Amazon Polly is a text-to-speech service that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Utilisation du mode automatique avec contrôle du volume. Les paramètres non spécifiés (duration et frequency) sont définis sur les valeurs par défaut (medium).

    <speak> <amazon:auto-breaths volume="x-soft">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Utilisation du mode automatique avec contrôle de la fréquence. Les paramètres non spécifiés (duration et volume) sont définis sur les valeurs par défaut (medium).

    <speak> <amazon:auto-breaths frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths> </speak>
  • Utilisation du mode automatique avec plusieurs paramètres. Pour le Duration paramètre non spécifié, Amazon Polly utilise la valeur medium par défaut ().

    <speak> <amazon:auto-breaths volume="x-loud" frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths> </speak>

Style de diction d’un présentateur de journal

<amazon:domain name="news">

Le style newscaster n'est disponible que pour les voix de Matthew ou Joanna, disponibles uniquement en anglais américain (en-US), Lupe, en espagnol américain (es-US) et Amy, en anglais britannique (en-GB). Il est pris en charge uniquement lors de l'utilisation du format Neural.

Pour utiliser ce style, vous utilisez des balises SSML et la syntaxe suivante :

<amazon:domain name="news">text</amazon:domain>

Par exemple, vous pouvez utiliser le style de présentateur d'actualités avec la voix d'Amy comme suit :

<speak> <amazon:domain name="news"> From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, the largest ship ever launched, has ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, and several liners were near enough to catch and respond to the call. </amazon:domain> </speak>

Ajout d'une compression de plage dynamique

<amazon:effect name="drc">

Cette balise est prise en charge par les formats TTS longs, neuronaux et standard.

Selon le texte, la langue et la voix utilisés dans un fichier audio, les sons vont d'un volume faible à fort. Les sons environnementaux, tels que celui d'un véhicule en mouvement, peuvent souvent masquer les sons les plus faibles, ce qui rend la piste audio difficilement audible ou peu claire. Pour augmenter le volume de certains sons dans votre fichier audio, utilisez la balise de compression de plage dynamique (drc).

La balise drc définit un seuil d'intensité sonore intermédiaire pour votre texte audio et augmente le volume (le gain) des sons autour de ce seuil. Elle applique la plus grande augmentation du gain aux valeurs les plus proches du seuil ; le gain d'augmentation est réduit pour les valeurs les plus éloignées du seuil.

La compression de plage dynamique augmente le volume des sons autour d'un certain seuil.

Ainsi, les sons intermédiaires sont plus audibles dans un environnement bruyant, et l'ensemble du fichier audio est plus clair.

La balise drc correspond à un paramètre booléen (soit présente, soit absente). Elle utilise la syntaxe <amazon:effect name="drc"> et se termine par </amazon:effect>.

Vous pouvez utiliser le drc tag avec n'importe quelle voix ou langue prise en charge par Amazon Polly. Vous pouvez l'appliquer à une section entière de l'enregistrement ou à quelques mots seulement. Par exemple :

<speak> Some audio is difficult to hear in a moving vehicle, but <amazon:effect name="drc"> this audio is less difficult to hear in a moving vehicle.</amazon:effect> </speak>
Note

Lorsque vous utilisez « drc » dans la syntaxe , il convient de respecter la casse.amazon:effect

Utilisation de drc avec la balise prosody volume

Comme le montre le graphique suivant, la balise prosody volume augmente de façon uniforme le volume de tout le fichier audio en partant du niveau d'origine (ligne en pointillés) jusqu'à un niveau ajusté (ligne continue). Pour augmenter encore davantage le volume de certaines parties du fichier, utilisez la balise drc avec la balise prosody volume. La combinaison des balises n'affecte pas les paramètres de la balise prosody volume.

L'utilisation de la prosody volume balise augmente le volume de l'ensemble du fichier audio.

Lorsque vous utilisez les prosody volume balises drc et ensemble, Amazon Polly applique d'abord la drc balise, ce qui augmente les sons de milieu de gamme (ceux proches du seuil). Le service applique ensuite la balise prosody volume pour augmenter encore le volume de l'ensemble de la piste audio, de manière uniforme.

L'utilisation de l'drcétiquette associée à une prosody volume étiquette augmente le volume des sons de gamme moyenne en plus du volume de la piste audio complète.

Pour utiliser les balises ensemble, vous devez les imbriquer l'une dans l'autre. Par exemple :

<speak> <prosody volume="loud">This text needs to be understandable and loud. <amazon:effect name="drc"> This text also needs to be more understandable in a moving car.</amazon:effect></prosody> </speak>

Dans ce texte, la balise prosody volume augmente le volume de l'ensemble du passage jusqu'au niveau « fort ». La balise drc augmente le volume des valeurs intermédiaires de la deuxième phrase.

Note

Lorsque vous utilisez les balises drc et prosody volume ensemble, utilisez les procédures XML standard pour l'imbrication des balises.

Parler doucement

<amazon:effect phonation="soft">

Cette balise est actuellement prise en charge uniquement par le format TTS standard.

Pour spécifier que le texte saisi doit être prononcé à softer-than-normal voix haute, utilisez la <amazon:effect phonation="soft">balise.

La syntaxe suivante est utilisée :

<amazon:effect phonation="soft">text</amazon:effect>

Par exemple, vous pouvez utiliser cette balise avec la voix de Matthew, comme suit :

<speak> This is Matthew speaking in my normal voice. <amazon:effect phonation="soft">This is Matthew speaking in my softer voice.</amazon:effect> </speak>

Contrôle du timbre

<amazon:effet > vocal-tract-length

Cette balise est actuellement prise en charge uniquement par le format TTS standard.

Le timbre est la qualité sonore de la voix qui vous aide à faire la différence entre plusieurs voix, même lorsqu'elles ont la même tonalité et la même intensité sonore. L'une des caractéristiques physiologiques les plus importantes qui contribuent au timbre de voix est la longueur du conduit vocal. Le conduit vocal est une cavité remplie d'air qui s'étend du haut des cordes vocales jusqu'à l'extrémité des lèvres.

Pour contrôler le timbre du discours de sortie dans Amazon Polly, utilisez le vocal-tract-length tag. Cette balise a pour effet de modifier la longueur du conduit vocal du locuteur, et donne l'impression d'une modification de la taille du locuteur. Lorsque vous augmentez la balise vocal-tract-length, le locuteur semble physiquement plus grand. Lorsque vous la réduisez, le locuteur semble plus petit. Vous pouvez utiliser cette balise avec n'importe laquelle des voix du portfolio Text-to-Speech d'Amazon Polly.

Pour modifier le timbre, utilisez les valeurs suivantes :

  • +n% ou -n% : ajuste la longueur du conduit vocal à l'aide d'un pourcentage relatif de la voix actuelle. Par exemple, +4 % or -2 %. Les valeurs valides s'étendent de +100 % à -50 %. Les valeurs hors de cette plage sont coupées. Par exemple, +111 % s'entendra +100 % et -60 % s'entendra -50 %.

  • n% : modifie la longueur du conduit vocal en appliquant un pourcentage absolu de la longueur du conduit vocal pour la voix actuelle. Par exemple, 110 % or 75 %. Une valeur absolue de 110 % est équivalente à une valeur relative de +10 %. Une valeur absolue de 100 % est identique à la valeur par défaut de la voix actuelle.

L'exemple suivant montre comment modifier la longueur du conduit vocal pour modifier le timbre :

<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small. </amazon:effect> You can also control the timbre of my voice by making minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect><amazon:effect vocal-tract-length="-10%"> Or, making me sound only somewhat smaller. </amazon:effect> </speak>

Combinaison de plusieurs balises

Vous pouvez combiner la vocal-tract-length balise avec n'importe quelle autre balise SSML prise en charge par Amazon Polly. Dans la mesure où le timbre (longueur du conduit vocal) et la tonalité sont étroitement liés, vous pouvez obtenir de meilleurs résultats en utilisant à la fois la balise vocal-tract-length et la balise <prosody pitch>. Pour produire la voix la plus réaliste possible, nous vous recommandons d'utiliser différents pourcentages de modification pour les deux balises. Testez différentes combinaisons pour obtenir les résultats souhaités.

L'exemple suivant vous montre comment combiner des balises.

<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect><amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch, too. </prosody></amazon:effect> <amazon:effect vocal-tract-length="+15%"> If you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect> </speak>

Chuchotement

<amazon:effect name="whispered">

Cette balise est actuellement prise en charge uniquement par le format TTS standard.

Cette balise indique que le texte d'entrée ne doit pas être prononcé de façon normale mais à voix basse. Cela peut être utilisé avec n'importe laquelle des voix du portefeuille de synthèse vocale Amazon Polly.

Cette balise utilise la syntaxe suivante :

<amazon:effect name="whispered">text</amazon:effect>

Par exemple :

<speak> <amazon:effect name="whispered">If you make any noise, </amazon:effect> she said, <amazon:effect name="whispered">they will hear us.</amazon:effect> </speak>

Dans ce cas, le discours synthétisé prononcé par le personnage est chuchoté, mais la phrase « elle a dit » est prononcée dans le discours synthétisé normal de la voix Amazon Polly sélectionnée.

Vous pouvez renforcer l'effet « voix basse » en ralentissant le débit de parole jusqu'à 10 % selon l'effet voulu.

Par exemple :

<speak> When any voice is made to whisper, <amazon:effect name="whispered"> <prosody rate="-10%">the sound is slower and quieter than normal speech </prosody></amazon:effect> </speak>

Lors de la génération des marques vocales d'une voix basse, le flux audio doit également comprendre la voix basse pour que les marques vocales correspondent bien à celui-ci.