Voix de longue durée - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Voix de longue durée

Amazon Polly dispose d'un moteur de longue durée qui produit des voix humaines, très expressives et émotionnellement fortes. Les voix longues sont conçues pour attirer l'attention des auditeurs sur des contenus plus longs, tels que des articles de presse, du matériel de formation ou des vidéos marketing.

Amazon Polly Les voix longues sont développées à l'aide d'une technologie d'apprentissage profond de pointe. TTS Le modèle apprend à reproduire les phonèmes, la prosodie, l'intonation et d'autres aspects phonétiques et acoustiques du langage humain, ce qui permet d'obtenir une sortie vocale très naturelle.

Le moteur de format long utilise des intégrations de texte pour interpréter le sens d'un texte. Grâce à l'intégration de texte, le moteur Longform peut générer l'accent, les pauses et le ton corrects d'une voix naturelle. Le résultat est une voix qui combine la gamme complète des éléments émotionnels présents dans la communication humaine. Cela inclut l'imitation de la surprise ou la différenciation entre le dialogue et la narration. Ensemble, cela crée un produit vocal haut de gamme qui ressemble à un être humain vivant.

Note

La state-of-the-art technologie sous-jacente à ces voix s'inscrit dans le paradigme de l'IA générative pour la modélisation du langage et de la voix. L'un des effets secondaires de cette technologie est que toute mise à jour des données d'entraînement et du modèle peut entraîner de légères variations dans le son des voix, même si leur qualité globale s'améliore avec les mises à jour du modèle. Cela pourrait avoir un impact sur les cas d'utilisation où différentes parties du contenu sont synthétisées sur une longue période, par exemple, une saison de podcasts.

Voix longues disponibles

Amazon Polly propose actuellement deux voix féminines et une voix masculine de longue durée en-US. Ces voix longues sont également disponibles dans une variante conversationnelle. NTTS

Langue Code de langue Nom/ID Gender

1

Anglais (Etats-Unis)

en-US

Danielle

Grégory

Ruth

Femme

Homme

Femme

Compatibilité entre les fonctionnalités et les régions

Les voix longues Amazon Polly sont disponibles dans les régions suivantes :

  • USA Est (Virginie du Nord) : us-east-1

  • Autres régions non disponibles

Le moteur Amazon Polly Long-form prend en charge les fonctionnalités suivantes :

  • Opérations de synthèse vocale asynchrone et en temps réel.

  • Toutes les marques vocales.

  • De nombreuses SSML balises (mais pas toutes) sont prises en charge par Amazon Polly. Pour plus d'informations sur les SSML balises NTTS prises en charge, consultez la section Balises prises en charge SSML

  • Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les taux d'échantillonnage valides pour les voix standard, longues et neuronales sont les suivants : 8kHz, 16 kHzkHz, 22 ou 24kHz. La valeur par défaut pour les voix standard est 22kHz. La valeur par défaut pour les voix longues et neuronales est 24kHz. Amazon Polly prend en charge les formats MP3 de flux PCM audio bruts OGG (Vorbis) et Raw.

Note

Le coût des appels vocaux de longue durée est indiqué sur la page d'informations tarifaires d'Amazon Polly.