Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Voix neuronales
Amazon Polly dispose d'un moteur neuronal text-to-speech (NTTS) capable de produire des voix d'une qualité encore supérieure à celle des voix standard. Les voix TTS standard utilisent la synthèse concaténative. Le moteur standard concatène les phonèmes de la parole enregistrée, produisant ainsi une voix synthétisée très naturelle. Cependant, les variations inévitables de la parole et les techniques utilisées pour segmenter les formes d'onde limitent la qualité de la parole. Le moteur Amazon Polly NTTS n'utilise pas de synthèse concaténative standard pour produire de la parole. Il se divise en deux parties :
-
Un réseau neuronal qui convertit une séquence de phonèmes (les unités les plus élémentaires du langage) en une séquence de spectrogrammes. (Les spectogrammes sont des instantanés des niveaux d'énergie dans différentes bandes de fréquences.)
-
Un vocodeur, qui convertit les spectrogrammes en un signal audio presque continu.
Le premier composant du système neuronal TTS est un sequence-to-sequence modèle. Ce modèle ne crée pas ses résultats uniquement à partir de l'entrée correspondante, mais tient également compte de la façon dont la séquence des éléments de l'entrée fonctionne ensemble. Le modèle choisit les spectrogrammes qu'il génère afin que leurs bandes de fréquence mettent l'accent sur les caractéristiques acoustiques que le cerveau humain utilise lors du traitement de la parole.
La sortie de ce modèle est ensuite transmise à un vocodeur neuronal. Cela convertit les spectrogrammes en formes d'ondes vocales. Lorsqu'elle est entraînée sur les grands ensembles de données utilisés pour créer des systèmes de synthèse concaténative à usage général, cette sequence-to-sequence approche produira des voix de meilleure qualité et au son plus naturel.
Voix neuronales disponibles
Les voix neuronales sont disponibles en 36 langues et variantes linguistiques. Le tableau suivant les répertorie.
|
Langue et variantes linguistiques | Code de langue | Nom/ID | Gender |
---|---|---|---|---|
1 |
Arabe (Golfe) |
Ar-ae |
Hala Zayd |
Femme Homme |
2 |
Néerlandais belge (flamand) |
NL-BE |
Lisa |
Femme |
3 |
Catalan |
CA-ES |
Arlet |
Femme |
4 |
Tchèque |
CS-CZ |
Jitka |
Femme |
5 |
Chinois (cantonais) |
Yue-CN |
Hiujin |
Femme |
6 |
Chinois (mandarin) |
cmn-CN |
Zhiyu |
Femme |
7 |
Danois |
da-DK |
Sofie |
Femme |
8 |
Néerlandais |
nl-NL |
Laura |
Femme |
9 |
Anglais (australien) |
en-AU |
Olivia |
Femme |
10 |
Anglais (britannique) |
en-GB |
Amy* Emma Brian Arthur |
Femme Femme Homme Homme |
11 |
Anglais (Inde) |
en-IN |
Kajal |
Femme |
12 |
Anglais (irlandais) |
fr-IE |
Niamh |
Femme |
13 |
Anglais (Nouvelle Zélande) |
fr-NZ |
Aria |
Femme |
14 |
Anglais (singapourien) |
fr-SG |
Jasmin |
Femme |
15 |
Anglais (Afrique du Sud) |
fr-za |
Ayanda |
Femme |
16 |
Anglais (Etats-Unis) |
en-US |
Danielle Grégory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Femme Homme Femme (enfant) Femme Femme Femme Femme Homme Homme (enfant) Homme (enfant) Homme Femme Homme |
17 |
Finnois |
Fi-Fi |
Suvi |
Femme |
18 |
Français (Belge) |
FR-BE |
Isabelle |
Femme |
19 |
Français (Canada) |
fr-CA |
Gabrielle Liam |
Femme Homme |
20 |
Français |
fr-FR |
Léa Rémi |
Femme Homme |
21 |
Allemand |
de-DE |
Vicki Daniel |
Femme Homme |
22 |
Allemand (Autrichien) |
Dé-AT |
Hannah |
Femme |
23 |
Allemand (Suisse) |
De-CH |
Sabrina |
Femme |
24 |
Hindi |
hi-IN |
Kajal |
Femme |
25 |
Italien |
it-IT |
Bianca Adriano |
Femme Homme |
26 |
Japonais |
ja-JP |
Takumi Kazuha Tomoko |
Homme Femme Femme |
27 |
Coréen |
ko-KR |
Seoyeon |
Femme |
28 |
Norvégien |
nb-NO |
Ida |
Femme |
29 |
Polonais |
pl-PL |
Ola |
Femme |
30 |
Portugais (Brésil) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Femme Femme Homme |
31 |
Portugais européen |
pt-PT |
Inês/Ines |
Femme |
32 |
Espagnol (Espagne) |
es-ES |
Lucia Sergio |
Femme Homme |
33 |
Espagnol (mexicain) |
es-MX |
Mia Andrés |
Femme Homme |
34 |
Espagnol (États-Unis) |
es-US |
Lupe* Pedro |
Femme Homme |
35 |
Suédois |
sv-SE |
Elin |
Femme |
36 |
Turc |
tr-TR |
Burcu |
Femme |
*Les voix d'Amy, Joanna, Lupe et Matthew peuvent être utilisées avec le style de parole de Newscaster. Pour de plus amples informations, veuillez consulter Appliquer la voix du présentateur.
Compatibilité entre les fonctionnalités et les régions
Les voix neuronales ne sont pas disponibles dans toutes les AWS régions et ne sont pas compatibles avec toutes les fonctionnalités d'Amazon Polly.
Les voix neuronales sont prises en charge dans les régions suivantes :
-
USA Est (Virginie du Nord) : us-east-1
-
USA Ouest (Oregon) : us-west-2
-
Afrique (Le Cap) : af-south-1
-
Asie-Pacifique (Tokyo) : ap-northeast-1
-
Asie-Pacifique (Séoul) : ap-northeast-2
-
Asie-Pacifique (Osaka) : ap-northeast-3
-
Asie-Pacifique (Mumbai) : ap-south-1
-
Asie-Pacifique (Singapour) : ap-southeast-1
-
Asie-Pacifique (Sydney) : ap-southeast-2
-
Canada (Centre) : ca-central-1
-
Europe (Francfort) : eu-central-1
-
Europe (Irlande) : eu-west-1
-
Europe (Londres) : eu-west-2
-
Europe (Paris) : eu-west-3
-
Europe (Espagne) : eu-south-2
-
AWS GovCloud (US-Ouest) : -1 us-gov-west
Les points de terminaison et les protocoles pour ces régions sont identiques à ceux utilisés pour les voix standard. Pour plus d'informations, consultez la section Points de terminaison et quotas Amazon Polly.
Les fonctions suivantes sont prises en charge pour les voix neuronales :
-
Opérations de synthèse vocale asynchrone et en temps réel.
-
Style de diction d’un présentateur de journal Pour plus d'informations sur les styles de parole, voirAppliquer la voix du présentateur.
-
Toutes les marques vocales.
-
La plupart des balises SSML prises en charge par Amazon Polly (mais pas toutes). Pour plus d'informations sur les balises SSML prises en charge par NTTS, consultez la section Balises prises en charge.
Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les taux d'échantillonnage valides pour les voix standard et neuronales sont 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix neuronales est de 24 kHz. Amazon Polly prend en charge les MP3 formats de flux audio OGG (Vorbis) et PCM bruts.