Voix neuronales

Mode de mise au point

Voix neuronales - Amazon Polly

Voix neuronales disponibles Compatibilité entre les fonctionnalités et les régions

Amazon Polly dispose d'un moteur neuronal text-to-speech (NTTS) capable de produire des voix d'une qualité encore supérieure à celle des voix standard. Les voix TTS standard utilisent la synthèse concaténative. Le moteur standard concatène les phonèmes de la parole enregistrée, produisant ainsi une voix synthétisée très naturelle. Cependant, les variations inévitables de la parole et les techniques utilisées pour segmenter les formes d'onde limitent la qualité de la parole. Le moteur Amazon Polly NTTS n'utilise pas de synthèse concaténative standard pour produire de la parole. Il se divise en deux parties :

Un réseau neuronal qui convertit une séquence de phonèmes (les unités les plus élémentaires du langage) en une séquence de spectrogrammes. (Les spectogrammes sont des instantanés des niveaux d'énergie dans différentes bandes de fréquences.)
Un vocodeur, qui convertit les spectrogrammes en un signal audio presque continu.

Le premier composant du système neuronal TTS est un sequence-to-sequence modèle. Ce modèle ne crée pas ses résultats uniquement à partir de l'entrée correspondante, mais tient également compte de la façon dont la séquence des éléments de l'entrée fonctionne ensemble. Le modèle choisit les spectrogrammes qu'il génère afin que leurs bandes de fréquence mettent l'accent sur les caractéristiques acoustiques que le cerveau humain utilise lors du traitement de la parole.

La sortie de ce modèle est ensuite transmise à un vocodeur neuronal. Cela convertit les spectrogrammes en formes d'ondes vocales. Lorsqu'elle est entraînée sur les grands ensembles de données utilisés pour créer des systèmes de synthèse concaténative à usage général, cette sequence-to-sequence approche produira des voix de meilleure qualité et au son plus naturel.

Voix neuronales disponibles

Les voix neuronales sont disponibles en 36 langues et variantes linguistiques. Le tableau suivant les répertorie.

	Langue et variantes linguistiques	Code de langue	Nom/ID	Gender
1	Arabe (Golfe)	Ar-ae	Hala Zayd	Femme Homme
2	Néerlandais belge (flamand)	NL-BE	Lisa	Femme
3	Catalan	CA-ES	Arlet	Femme
4	Tchèque	CS-CZ	Jitka	Femme
5	Chinois (cantonais)	Yue-CN	Hiujin	Femme
6	Chinois (mandarin)	cmn-CN	Zhiyu	Femme
7	Danois	da-DK	Sofie	Femme
8	Néerlandais	nl-NL	Laura	Femme
9	Anglais (australien)	en-AU	Olivia	Femme
10	Anglais (britannique)	en-GB	Amy* Emma Brian Arthur	Femme Femme Homme Homme
11	Anglais (Inde)	en-IN	Kajal	Femme
12	Anglais (irlandais)	fr-IE	Niamh	Femme
13	Anglais (Nouvelle Zélande)	fr-NZ	Aria	Femme
14	Anglais (singapourien)	fr-SG	Jasmin	Femme
15	Anglais (Afrique du Sud)	fr-za	Ayanda	Femme
16	Anglais (Etats-Unis)	en-US	Danielle Grégory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	Femme Homme Femme (enfant) Femme Femme Femme Femme Homme Homme (enfant) Homme (enfant) Homme Femme Homme
17	Finnois	Fi-Fi	Suvi	Femme
18	Français (Belge)	FR-BE	Isabelle	Femme
19	Français (Canada)	fr-CA	Gabrielle Liam	Femme Homme
20	Français	fr-FR	Léa Rémi	Femme Homme
21	Allemand	de-DE	Vicki Daniel	Femme Homme
22	Allemand (Autrichien)	Dé-AT	Hannah	Femme
23	Allemand (Suisse)	De-CH	Sabrina	Femme
24	Hindi	hi-IN	Kajal	Femme
25	Italien	it-IT	Bianca Adriano	Femme Homme
26	Japonais	ja-JP	Takumi Kazuha Tomoko	Homme Femme Femme
27	Coréen	ko-KR	Seoyeon Jihye	Femme Femme
28	Norvégien	nb-NO	Ida	Femme
29	Polonais	pl-PL	Ola	Femme
30	Portugais (Brésil)	pt-BR	Camila Vitória/Vitoria Thiago	Femme Femme Homme
31	Portugais européen	pt-PT	Inês/Ines	Femme
32	Espagnol (Espagne)	es-ES	Lucia Sergio	Femme Homme
33	Espagnol (mexicain)	es-MX	Mia Andrés	Femme Homme
34	Espagnol (États-Unis)	es-US	Lupe* Pedro	Femme Homme
35	Suédois	sv-SE	Elin	Femme
36	Turc	tr-TR	Burcu	Femme

*Les voix d'Amy, Joanna, Lupe et Matthew peuvent être utilisées avec le style de parole de Newscaster. Pour de plus amples informations, veuillez consulter Appliquer la voix du présentateur.

Compatibilité entre les fonctionnalités et les régions

Les voix neuronales ne sont pas disponibles dans toutes les AWS régions et ne sont pas compatibles avec toutes les fonctionnalités d'Amazon Polly.

Les voix neuronales sont prises en charge dans les régions suivantes :

USA Est (Virginie du Nord) : us-east-1
USA Ouest (Oregon) : us-west-2
Afrique (Le Cap) : af-south-1
Asie-Pacifique (Tokyo) : ap-northeast-1
Asie-Pacifique (Séoul) : ap-northeast-2
Asie-Pacifique (Osaka) : ap-northeast-3
Asie-Pacifique (Mumbai) : ap-south-1
Asie-Pacifique (Singapour) : ap-southeast-1
Asie-Pacifique (Sydney) : ap-southeast-2
Asie-Pacifique (Malaisie) : ap-southeast-5
Canada (Centre) : ca-central-1
Europe (Francfort) : eu-central-1
Europe (Irlande) : eu-west-1
Europe (Londres) : eu-west-2
Europe (Paris) : eu-west-3
Europe (Espagne) : eu-south-2
AWS GovCloud (US-Ouest) : -1 us-gov-west

Les points de terminaison et les protocoles pour ces régions sont identiques à ceux utilisés pour les voix standard. Pour plus d'informations, consultez la section Points de terminaison et quotas Amazon Polly.

Les fonctions suivantes sont prises en charge pour les voix neuronales :

Opérations de synthèse vocale asynchrone et en temps réel.
Style de diction d’un présentateur de journal Pour plus d'informations sur les styles de parole, voirAppliquer la voix du présentateur.
Toutes les marques vocales.
La plupart des balises SSML prises en charge par Amazon Polly (mais pas toutes). Pour plus d'informations sur les balises SSML prises en charge par NTTS, consultez la section Balises prises en charge.

Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les taux d'échantillonnage valides pour les voix standard et neuronales sont 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix neuronales est de 24 kHz. Amazon Polly prend en charge les MP3 formats de flux audio OGG (Vorbis) et PCM bruts.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.