Neuronale Stimmen - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Neuronale Stimmen

Amazon Polly verfügt über eine Neural text-to-speech (NTTS) -Engine, die Stimmen in noch höherer Qualität erzeugen kann als ihre Standardstimmen. TTSStandardstimmen verwenden eine verkettete Synthese. Die Standard-Engine verkettet Phoneme aufgezeichneter Sprache und erzeugt so eine sehr natürlich klingende synthetisierte Sprache. Die unvermeidlichen Variationen der Sprache und die Techniken, die zum Segmentieren der Wellenformen verwendet werden, beschränken jedoch die Qualität der Sprache. Die Amazon Polly NTTS Polly-Engine verwendet keine standardmäßige verkettete Synthese, um Sprache zu erzeugen. Es besteht aus zwei Teilen:

  • Ein neuronales Netzwerk — das eine Folge von Phonemen (die grundlegendsten Spracheinheiten) in eine Folge von Spektrogrammen umwandelt. (Spektogramme sind Momentaufnahmen der Energieniveaus in verschiedenen Frequenzbändern.)

  • Ein Vocoder — der Spektrogramme in ein nahezu kontinuierliches Audiosignal umwandelt.

Die erste Komponente des neuronalen TTS Systems ist ein Modell. sequence-to-sequence Dieses Modell erstellt seine Ergebnisse nicht nur aus der entsprechenden Eingabe, sondern berücksichtigt auch, wie die Sequenz der Elemente der Eingabe zusammenarbeiten. Das Modell wählt die ausgegebenen Spektrogramme so aus, dass ihre Frequenzbänder akustische Merkmale betonen, die das menschliche Gehirn bei der Sprachverarbeitung verwendet.

Die Ausgabe dieses Modells wird dann an einen neuronalen Vocoder übergeben. Dadurch werden die Spektrogramme in Sprach-Wellenformen konvertiert. Wenn dieser Ansatz mit den großen Datensätzen trainiert wird, die für den Aufbau von Allzwecksystemen zur verketteten Synthese verwendet werden, wird dieser sequence-to-sequence Ansatz zu qualitativ hochwertigeren und natürlicheren Stimmen führen.

Verfügbare neuronale Stimmen

Neuronale Stimmen sind in 35 Sprachen und Sprachvarianten erhältlich. In der folgenden Tabelle werden die Stimmen aufgelistet.

Sprache und Sprachvarianten Sprachcode Name/ID Gender

1

Arabisch (Golf)

Ar-ae

Hala

Zayd

Weiblich

Männlich

2

Belgisches Niederländisch (Flämisch)

Nl-BE

Lisa

Weiblich

3

katalanisch

CA-es

Arlet

Weiblich

4

Tschechisch

CS-CZ

Jitka

Weiblich

5

Chinesisch (Kantonesisch)

Yue-CN

Huujin

Weiblich

6

Chinesisch (Mandarin)

cmn-CN

Zhiyu

Weiblich

7

Dänisch

da-DK

Sofie

Weiblich

8

Niederländisch

nl-NL

Laura

Weiblich

9

Englisch (australisch)

en-AU

Olivia

Weiblich

10

Englisch (britisch)

en-GB

Amy*

Emma

Brian

Artur

Weiblich

Weiblich

Männlich

Männlich

11

Englisch (indisch)

en-IN

Kajal

Weiblich

12

Englisch (Irisch)

en-IE

Niamh

Weiblich

13

Englisch (Neuseeland)

en-NZ

Arie

Weiblich

14

Englisch (Südafrikanisch)

en-ZA

Ayanda

Weiblich

15

Englisch (amerikanisch)

en-US

Danielle

Gregor

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Weiblich

Männlich

Weiblich (Kind)

Weiblich

Weiblich

Weiblich

Weiblich

Männlich

Männlich (Kind)

Männlich (Kind)

Männlich

Weiblich

Männlich

16

Finnisch

Fi-Fi

Suvi

Weiblich

17

Französisch (Belgisch)

fr-BE

Isabelle

Weiblich

18

Kanadisches Französisch

fr-CA

Gabrielle

Liam

Weiblich

Männlich

19

Französisch

fr-FR

Léa

Remi

Weiblich

Männlich

20

Deutsch

de-DE

Vicki

Daniel

Weiblich

Männlich

21

Deutsch (Österreichisch)

de-AT

Hannah

Weiblich

22

Deutsch (Schweizerisch)

de-CH

Sabrina

Weiblich

23

Hindi

hi-IN

Kajal

Weiblich

24

Italienisch

it-IT

Bianca

Adriano

Weiblich

Männlich

25

Japanisch

ja-JP

Takumi

Kazuha

Tomoko

Männlich

Weiblich

Weiblich

26

Koreanisch

ko-KR

Seoyeon

Weiblich

27

Norwegisch

nb-NO

Ida

Weiblich

28

Polnisch

pl-PL

Ola

Weiblich

29

Portugiesisch (brasilianisch)

pt-BR

Camila

Vitória/Vitoria

Thiago

Weiblich

Weiblich

Männlich

30

Portugiesisch (europäisch)

pt-PT

Inês/Ines

Weiblich

31

Spanisch (europäisch)

es-ES

Lucia

Sergio

Weiblich

Männlich

32

Spanisch (Mexikanisch)

es-MX

Mia

Andrés

Weiblich

Männlich

33

Spanisch (USA)

es-US

Lupe*

Pedro

Weiblich

Männlich

34

Schwedisch

sv-SE

Elin

Weiblich

35

Türkisch

tr-TR

Burcu

Weiblich

*Die Stimmen von Amy, Joanna, Lupe und Matthew können im Newscaster-Sprechstil verwendet werden. Weitere Informationen finden Sie unter Die Stimme des Nachrichtensprechers anwenden.

Kompatibilität mit Funktionen und Regionen

Neuronale Stimmen sind nicht in allen AWS Regionen verfügbar und unterstützen auch nicht alle Funktionen von Amazon Polly.

Neuronale Stimmen werden in den folgenden Regionen unterstützt:

  • USA Ost (Nord-Virginia): us-east-1

  • USA West (Oregon): us-west-2

  • Afrika (Kapstadt): af-south-1

  • Asien-Pazifik (Tokio): ap-northeast-1

  • Asien-Pazifik (Seoul): ap-northeast-2

  • Asien-Pazifik (Osaka): ap-northeast-3

  • Asien-Pazifik (Mumbai): ap-south-1

  • Asien-Pazifik (Singapur): ap-southeast-1

  • Asien-Pazifik (Sydney): ap-southeast-2

  • Kanada (Zentral): ca-central-1

  • Europa (Frankfurt): eu-central-1

  • Europa (Irland): eu-west-1

  • Europa (London): eu-west-2

  • Europa (Paris): eu-west-3

  • AWS GovCloud (US-West): -1 us-gov-west

Endpunkte und Protokolle für diese Regionen sind identisch mit denen für Standardstimmen. Weitere Informationen finden Sie unter Amazon Polly Polly-Endpunkte und Kontingente.

Die folgenden Funktionen werden für neuronale Stimmen unterstützt:

  • Echtzeit- und asynchrone Sprachsyntheseoperationen.

  • Sprechstil von Newscaster. Weitere Informationen zu den Sprechstilen finden Sie unter. Die Stimme des Nachrichtensprechers anwenden

  • Alle Sprachzeichen.

  • Viele (aber nicht alle) SSML Tags, die von Amazon Polly unterstützt werden. Weitere Informationen zu Tags, die von NTTS -supported werden, finden Sie unter Unterstützte SSML Tags.

Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard- und neuronale Stimmen sind 8 kHzkHz, 16kHz, 22 oder 24. kHz Die Standardeinstellung für Standardstimmen ist kHz 22. Die Standardeinstellung für neuronale Stimmen ist kHz 24. Amazon Polly unterstützt MP3 OGG (Vorbis) und PCM RAW-Audiostream-Formate.