Voix de longue durée

Mode de mise au point

Voix de longue durée - Amazon Polly

Voix longues disponibles Compatibilité entre les fonctionnalités et les régions

Amazon Polly dispose d'un moteur de longue durée qui produit des voix humaines, très expressives et émotionnellement fortes. Les voix longues sont conçues pour attirer l'attention des auditeurs sur des contenus plus longs, tels que des articles de presse, du matériel de formation ou des vidéos marketing.

Amazon Polly Les voix longues sont développées à l'aide d'une technologie TTS de pointe basée sur le deep learning. Le modèle apprend à reproduire les phonèmes, la prosodie, l'intonation et d'autres aspects phonétiques et acoustiques du langage humain, ce qui permet d'obtenir une sortie vocale très naturelle.

Le moteur de format long utilise des intégrations de texte pour interpréter le sens d'un texte. Grâce à l'intégration de texte, le moteur Longform peut générer l'accent, les pauses et le ton corrects d'une voix naturelle. Le résultat est une voix qui combine la gamme complète des éléments émotionnels présents dans la communication humaine. Cela inclut l'imitation de la surprise ou la différenciation entre le dialogue et la narration. Ensemble, cela crée un produit vocal haut de gamme qui ressemble à un être humain vivant.

Note

La state-of-the-art technologie sous-jacente à ces voix s'inscrit dans le paradigme de l'IA générative pour la modélisation du langage et de la voix. L'un des effets secondaires de cette technologie est que toute mise à jour des données d'entraînement et du modèle peut entraîner de légères variations dans le son des voix, même si leur qualité globale s'améliore avec les mises à jour du modèle. Cela pourrait avoir un impact sur les cas d'utilisation où différentes parties du contenu sont synthétisées sur une longue période, par exemple, une saison de podcasts.

Voix longues disponibles

Amazon Polly propose actuellement quatre voix en-US et deux voix es-ES de longue durée. Dans les deux langues, des voix féminines et masculines sont disponibles. Les voix longues anglaises Daniel, Gregory et Ruth sont également disponibles dans une variante NTTS conversationnelle.

	Langue	Code de langue	Nom/ID	Gender
1	Anglais (Etats-Unis)	en-US	Danielle Grégory Ruth Patrick	Femme Homme Femme Homme
2	Espagnol (Espagne)	es-ES	Alba Raúl	Femme Homme

Langue

Code de langue

Nom/ID

Gender

Anglais (Etats-Unis)

en-US

Danielle

Grégory

Ruth

Patrick

Femme

Homme

Femme

Homme

Espagnol (Espagne)

es-ES

Alba

Raúl

Femme

Homme

Compatibilité entre les fonctionnalités et les régions

Les voix longues Amazon Polly sont disponibles dans les régions suivantes :

USA Est (Virginie du Nord) : us-east-1
Autres régions non disponibles

Le moteur Amazon Polly Long-form prend en charge les fonctionnalités suivantes :

Opérations de synthèse vocale asynchrone et en temps réel.
Toutes les marques vocales.
De nombreuses balises SSML (mais pas toutes) sont prises en charge par Amazon Polly. Pour plus d'informations sur les balises SSML prises en charge par NTTS, voir Balises SSML prises en charge
Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les fréquences d'échantillonnage valides pour les voix standard, longues et neuronales sont les suivantes : 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix longues et neuronales est de 24 kHz. Amazon Polly prend en charge les MP3 formats de flux audio OGG (Vorbis) et PCM bruts.

Note

Le coût des appels vocaux de longue durée est indiqué sur la page d'informations tarifaires d'Amazon Polly.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.