Voix neuronales - Amazon Polly

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Voix neuronales

Amazon Polly dispose d'un moteur neuronal text-to-speech (NTTS) capable de produire des voix d'une qualité encore supérieure à celle des voix standard. Les voix TTS standard utilisent la synthèse concaténative. Le moteur standard concatène les phonèmes de la parole enregistrée, produisant ainsi une voix synthétisée très naturelle. Cependant, les variations inévitables de la parole et les techniques utilisées pour segmenter les formes d'onde limitent la qualité de la parole. Le moteur Amazon Polly NTTS n'utilise pas de synthèse concaténative standard pour produire de la parole. Il se divise en deux parties :

  • Un réseau neuronal qui convertit une séquence de phonèmes (les unités les plus élémentaires du langage) en une séquence de spectrogrammes. (Les spectogrammes sont des instantanés des niveaux d'énergie dans différentes bandes de fréquences.)

  • Un vocodeur, qui convertit les spectrogrammes en un signal audio presque continu.

Le premier composant du système neuronal TTS est un sequence-to-sequence modèle. Ce modèle ne crée pas ses résultats uniquement à partir de l'entrée correspondante, mais tient également compte de la façon dont la séquence des éléments de l'entrée fonctionne ensemble. Le modèle choisit les spectrogrammes qu'il génère afin que leurs bandes de fréquence mettent l'accent sur les caractéristiques acoustiques que le cerveau humain utilise lors du traitement de la parole.

La sortie de ce modèle est ensuite transmise à un vocodeur neuronal. Cela convertit les spectrogrammes en formes d'ondes vocales. Lorsqu'elle est entraînée sur les grands ensembles de données utilisés pour créer des systèmes de synthèse concaténative à usage général, cette sequence-to-sequence approche produira des voix de meilleure qualité et au son plus naturel.

Voix neuronales disponibles

Les voix neuronales sont disponibles en 36 langues et variantes linguistiques. Le tableau suivant les répertorie.

Langue et variantes linguistiques Code de langue Nom/ID Gender

1

Arabe (Golfe)

Ar-ae

Hala

Zayd

Femme

Homme

2

Néerlandais belge (flamand)

NL-BE

Lisa

Femme

3

Catalan

CA-ES

Arlet

Femme

4

Tchèque

CS-CZ

Jitka

Femme

5

Chinois (cantonais)

Yue-CN

Hiujin

Femme

6

Chinois (mandarin)

cmn-CN

Zhiyu

Femme

7

Danois

da-DK

Sofie

Femme

8

Néerlandais

nl-NL

Laura

Femme

9

Anglais (australien)

en-AU

Olivia

Femme

10

Anglais (britannique)

en-GB

Amy*

Emma

Brian

Arthur

Femme

Femme

Homme

Homme

11

Anglais (Inde)

en-IN

Kajal

Femme

12

Anglais (irlandais)

fr-IE

Niamh

Femme

13

Anglais (Nouvelle Zélande)

fr-NZ

Aria

Femme

14

Anglais (singapourien)

fr-SG

Jasmin

Femme

15

Anglais (Afrique du Sud)

fr-za

Ayanda

Femme

16

Anglais (Etats-Unis)

en-US

Danielle

Grégory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Femme

Homme

Femme (enfant)

Femme

Femme

Femme

Femme

Homme

Homme (enfant)

Homme (enfant)

Homme

Femme

Homme

17

Finnois

Fi-Fi

Suvi

Femme

18

Français (Belge)

FR-BE

Isabelle

Femme

19

Français (Canada)

fr-CA

Gabrielle

Liam

Femme

Homme

20

Français

fr-FR

Léa

Rémi

Femme

Homme

21

Allemand

de-DE

Vicki

Daniel

Femme

Homme

22

Allemand (Autrichien)

Dé-AT

Hannah

Femme

23

Allemand (Suisse)

De-CH

Sabrina

Femme

24

Hindi

hi-IN

Kajal

Femme

25

Italien

it-IT

Bianca

Adriano

Femme

Homme

26

Japonais

ja-JP

Takumi

Kazuha

Tomoko

Homme

Femme

Femme

27

Coréen

ko-KR

Seoyeon

Femme

28

Norvégien

nb-NO

Ida

Femme

29

Polonais

pl-PL

Ola

Femme

30

Portugais (Brésil)

pt-BR

Camila

Vitória/Vitoria

Thiago

Femme

Femme

Homme

31

Portugais européen

pt-PT

Inês/Ines

Femme

32

Espagnol (Espagne)

es-ES

Lucia

Sergio

Femme

Homme

33

Espagnol (mexicain)

es-MX

Mia

Andrés

Femme

Homme

34

Espagnol (États-Unis)

es-US

Lupe*

Pedro

Femme

Homme

35

Suédois

sv-SE

Elin

Femme

36

Turc

tr-TR

Burcu

Femme

*Les voix d'Amy, Joanna, Lupe et Matthew peuvent être utilisées avec le style de parole de Newscaster. Pour de plus amples informations, veuillez consulter Appliquer la voix du présentateur.

Compatibilité entre les fonctionnalités et les régions

Les voix neuronales ne sont pas disponibles dans toutes les AWS régions et ne sont pas compatibles avec toutes les fonctionnalités d'Amazon Polly.

Les voix neuronales sont prises en charge dans les régions suivantes :

  • USA Est (Virginie du Nord) : us-east-1

  • USA Ouest (Oregon) : us-west-2

  • Afrique (Le Cap) : af-south-1

  • Asie-Pacifique (Tokyo) : ap-northeast-1

  • Asie-Pacifique (Séoul) : ap-northeast-2

  • Asie-Pacifique (Osaka) : ap-northeast-3

  • Asie-Pacifique (Mumbai) : ap-south-1

  • Asie-Pacifique (Singapour) : ap-southeast-1

  • Asie-Pacifique (Sydney) : ap-southeast-2

  • Canada (Centre) : ca-central-1

  • Europe (Francfort) : eu-central-1

  • Europe (Irlande) : eu-west-1

  • Europe (Londres) : eu-west-2

  • Europe (Paris) : eu-west-3

  • Europe (Espagne) : eu-south-2

  • AWS GovCloud (US-Ouest) : -1 us-gov-west

Les points de terminaison et les protocoles pour ces régions sont identiques à ceux utilisés pour les voix standard. Pour plus d'informations, consultez la section Points de terminaison et quotas Amazon Polly.

Les fonctions suivantes sont prises en charge pour les voix neuronales :

  • Opérations de synthèse vocale asynchrone et en temps réel.

  • Style de diction d’un présentateur de journal Pour plus d'informations sur les styles de parole, voirAppliquer la voix du présentateur.

  • Toutes les marques vocales.

  • La plupart des balises SSML prises en charge par Amazon Polly (mais pas toutes). Pour plus d'informations sur les balises SSML prises en charge par NTTS, consultez la section Balises prises en charge.

Comme pour les voix standard, vous pouvez choisir parmi différents taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio de votre application. Les taux d'échantillonnage valides pour les voix standard et neuronales sont 8 kHz, 16 kHz, 22 kHz ou 24 kHz. La valeur par défaut pour les voix standard est 22 kHz. La valeur par défaut pour les voix neuronales est de 24 kHz. Amazon Polly prend en charge les MP3 formats de flux audio OGG (Vorbis) et PCM bruts.