Voix génératives - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Voix génératives

Le moteur generative text-to-speech (TTS) d'Amazon Polly propose les voix conversationnelles les plus humaines, émotionnellement engagées et adaptatives disponibles via la console Amazon Polly.

Le moteur Generative est le plus grand TTS modèle Amazon Polly à ce jour. Il déploie un transformateur d'un milliard de paramètres qui convertit le texte brut en codes vocaux, suivi d'un décodeur basé sur la convolution qui convertit ces codes vocaux en formes d'onde de manière incrémentielle et diffusable. Cette méthode montre les capacités émergentes largement signalées des grands modèles linguistiques (LLMs) lorsqu'ils sont entraînés sur des volumes croissants de données exclusives et accessibles au public comprenant une variété de voix, de langues et de styles.

Le moteur Generative crée un discours synthétique qui est émotionnellement engagé, assertif et très familier d'une manière remarquablement similaire à une voix humaine. Vous pouvez utiliser ces voix en tant qu'assistant client compétent, formateur virtuel ou annonceur utilisant un discours synthétique quasi humain.

Note

La state-of-the-art technologie sous-jacente à ces voix s'inscrit dans le paradigme de l'IA générative pour la modélisation du langage et de la voix. L'un des effets secondaires de cette technologie est que toute mise à jour des données d'entraînement et du modèle peut entraîner de légères variations dans le son des voix, même si leur qualité globale s'améliore avec les mises à jour du modèle. Cela pourrait avoir un impact sur les cas d'utilisation où différentes parties du contenu sont synthétisées sur une longue période, par exemple, une saison de podcasts.

Voix génératives disponibles

Amazon Polly propose actuellement sept voix dans une variante générative. Ces voix génératives sont également disponibles dans une NTTS variante conversationnelle.

Langue Code de langue Nom/ID Gender

1

Anglais (australien)

en-AU

Olivia

Femme

2

Anglais (Royaume-Uni)

en-GB

Amy

Femme

3

Anglais (Etats-Unis)

en-US

Danielle

Femme

4

Anglais (Etats-Unis)

en-US

Joanna

Femme

5

Anglais (Etats-Unis)

en-US

Matthew

Homme

6

Anglais (Etats-Unis)

en-US

Ruth

Femme

7

Anglais (Etats-Unis)

en-US

Stephen

Homme

Note

Le coût des voix génératives est indiqué sur la page d'informations tarifaires d'Amazon Polly.

Compatibilité entre les fonctionnalités et les régions

Les voix génératives Amazon Polly sont disponibles dans les régions suivantes :

  • USA Est (Virginie du Nord) : us-east-1

  • Europe (Francfort) : eu-central-1

  • USA Ouest (Oregon) : us-west-2

  • Les autres régions ne sont pas disponibles

Les fonctionnalités suivantes sont prises en charge pour les voix génératives :

  • Opérations de synthèse vocale asynchrone et en temps réel.

  • Le style de parole des présentateurs de nouvelles n'est pas pris en charge dans le moteur Generative.

  • De nombreuses SSML balises (mais pas toutes) sont prises en charge par Amazon Polly. Pour plus d'informations sur les SSML balises NTTS prises en charge, consultez la section Balises prises en charge SSML

  • Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les taux d'échantillonnage valides pour les voix standard et neuronales sont de 8 kHzkHz, 16kHz, 22 ou 24kHz. La valeur par défaut pour les voix standard est 22kHz. La valeur par défaut pour les voix génératives est 24kHz. Amazon Polly prend en charge les formats MP3 de flux PCM audio bruts OGG (Vorbis) et Raw.

Support pour la génération de marques vocales n'est actuellement pas disponible.

Note

Dans le cas peu probable d'une hallucination du modèle (et compte tenu du comportement du modèle du moteur Generative qui consiste à restituer le signal vocal par jeton), un mécanisme d'arrêt d'urgence imposé est en place. Le mécanisme intégré empêche le modèle de continuer à émettre de la parole. Cette caractéristique de sécurité est basée sur l'analyse de données lorsque le modèle est susceptible d'halluciner, généralement à la fin de la phrase.

Il peut arriver que le modèle pense qu'il va halluciner et qu'il finisse par découper un mot au cours d'une étape de génération, rendant ainsi la moitié du mot. Cela pourrait potentiellement générer des résultats inappropriés.