Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Voix de longue durée

Mode de mise au point
Voix de longue durée - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Amazon Polly dispose d'un moteur de longue durée qui produit des voix humaines, très expressives et émotionnellement fortes. Les voix longues sont conçues pour attirer l'attention des auditeurs sur des contenus plus longs, tels que des articles de presse, du matériel de formation ou des vidéos marketing.

Amazon Polly Les voix longues sont développées à l'aide d'une technologie TTS de pointe basée sur le deep learning. Le modèle apprend à reproduire les phonèmes, la prosodie, l'intonation et d'autres aspects phonétiques et acoustiques du langage humain, ce qui permet d'obtenir une sortie vocale très naturelle.

Le moteur de format long utilise des intégrations de texte pour interpréter le sens d'un texte. Grâce à l'intégration de texte, le moteur Longform peut générer l'accent, les pauses et le ton corrects d'une voix naturelle. Le résultat est une voix qui combine la gamme complète des éléments émotionnels présents dans la communication humaine. Cela inclut l'imitation de la surprise ou la différenciation entre le dialogue et la narration. Ensemble, cela crée un produit vocal haut de gamme qui ressemble à un être humain vivant.

Note

La state-of-the-art technologie sous-jacente à ces voix s'inscrit dans le paradigme de l'IA générative pour la modélisation du langage et de la voix. L'un des effets secondaires de cette technologie est que toute mise à jour des données d'entraînement et du modèle peut entraîner de légères variations dans le son des voix, même si leur qualité globale s'améliore avec les mises à jour du modèle. Cela pourrait avoir un impact sur les cas d'utilisation où différentes parties du contenu sont synthétisées sur une longue période, par exemple, une saison de podcasts.

Voix longues disponibles

Amazon Polly propose actuellement quatre voix en-US et deux voix es-ES de longue durée. Dans les deux langues, des voix féminines et masculines sont disponibles. Les voix longues anglaises Daniel, Gregory et Ruth sont également disponibles dans une variante NTTS conversationnelle.

Langue Code de langue Nom/ID Gender

1

Anglais (Etats-Unis)

en-US

Danielle

Grégory

Ruth

Patrick

Femme

Homme

Femme

Homme

2

Espagnol (Espagne)

es-ES

Alba

Raúl

Femme

Homme

Compatibilité entre les fonctionnalités et les régions

Les voix longues Amazon Polly sont disponibles dans les régions suivantes :

  • USA Est (Virginie du Nord) : us-east-1

  • Autres régions non disponibles

Le moteur Amazon Polly Long-form prend en charge les fonctionnalités suivantes :

  • Opérations de synthèse vocale asynchrone et en temps réel.

  • Toutes les marques vocales.

  • De nombreuses balises SSML (mais pas toutes) sont prises en charge par Amazon Polly. Pour plus d'informations sur les balises SSML prises en charge par NTTS, voir Balises SSML prises en charge

  • Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les fréquences d'échantillonnage valides pour les voix standard, longues et neuronales sont les suivantes : 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix longues et neuronales est de 24 kHz. Amazon Polly prend en charge les MP3 formats de flux audio OGG (Vorbis) et PCM bruts.

Note

Le coût des appels vocaux de longue durée est indiqué sur la page d'informations tarifaires d'Amazon Polly.

Rubrique suivante :

Moteur neuronal

Rubrique précédente :

Moteur génératif
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.