Neuronale Stimmen

Fokusmodus

Neuronale Stimmen - Amazon Polly

Verfügbare neuronale Stimmen Kompatibilität mit Funktionen und Regionen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Polly verfügt über eine neuronale Engine text-to-speech (NTTS), die Stimmen in noch höherer Qualität erzeugen kann als ihre Standardstimmen. Standard-TTS-Stimmen verwenden eine verkettete Synthese. Die Standard-Engine verkettet Phoneme aufgezeichneter Sprache und erzeugt so eine sehr natürlich klingende synthetisierte Sprache. Die unvermeidlichen Variationen der Sprache und die Techniken, die zum Segmentieren der Wellenformen verwendet werden, beschränken jedoch die Qualität der Sprache. Die Amazon Polly NTTS-Engine verwendet keine standardmäßige verkettete Synthese, um Sprache zu erzeugen. Es besteht aus zwei Teilen:

Ein neuronales Netzwerk — das eine Folge von Phonemen (die grundlegendsten Spracheinheiten) in eine Folge von Spektrogrammen umwandelt. (Spektogramme sind Momentaufnahmen der Energieniveaus in verschiedenen Frequenzbändern.)
Ein Vocoder — der Spektrogramme in ein nahezu kontinuierliches Audiosignal umwandelt.

Die erste Komponente des neuronalen TTS-Systems ist ein Modell. sequence-to-sequence Dieses Modell erstellt seine Ergebnisse nicht nur aus der entsprechenden Eingabe, sondern berücksichtigt auch, wie die Sequenz der Elemente der Eingabe zusammenarbeiten. Das Modell wählt die ausgegebenen Spektrogramme so aus, dass ihre Frequenzbänder akustische Merkmale betonen, die das menschliche Gehirn bei der Sprachverarbeitung verwendet.

Die Ausgabe dieses Modells wird dann an einen neuronalen Vocoder übergeben. Dadurch werden die Spektrogramme in Sprach-Wellenformen konvertiert. Wenn dieser Ansatz mit den großen Datensätzen trainiert wird, die für den Aufbau von Systemen zur verketteten Synthese für allgemeine Zwecke verwendet werden, wird dieser sequence-to-sequence Ansatz zu qualitativ hochwertigeren und natürlicheren Stimmen führen.

Verfügbare neuronale Stimmen

Neuronale Stimmen sind in 36 Sprachen und Sprachvarianten verfügbar. In der folgenden Tabelle werden die Stimmen aufgelistet.

	Sprache und Sprachvarianten	Sprachcode	Name/ID	Gender
1	Arabisch (Golf)	Ar-ae	Hala Zayd	Weiblich Männlich
2	Belgisches Niederländisch (Flämisch)	Nl-BE	Lisa	Weiblich
3	katalanisch	CA-es	Arlet	Weiblich
4	Tschechisch	CS-CZ	Jitka	Weiblich
5	Chinesisch (Kantonesisch)	Yue-CN	Huujin	Weiblich
6	Chinesisch (Mandarin)	cmn-CN	Zhiyu	Weiblich
7	Dänisch	da-DK	Sofie	Weiblich
8	Niederländisch	nl-NL	Laura	Weiblich
9	Englisch (australisch)	en-AU	Olivia	Weiblich
10	Englisch (britisch)	en-GB	Amy* Emma Brian Artur	Weiblich Weiblich Männlich Männlich
11	Englisch (indisch)	en-IN	Kajal	Weiblich
12	Englisch (Irisch)	en-IE	Niamh	Weiblich
13	Englisch (Neuseeland)	en-NZ	Arie	Weiblich
14	Englisch (Singapurisch)	en-SG	Jasmin	Weiblich
15	Englisch (Südafrikanisch)	en-ZA	Ayanda	Weiblich
16	Englisch (amerikanisch)	en-US	Danielle Gregor Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	Weiblich Männlich Weiblich (Kind) Weiblich Weiblich Weiblich Weiblich Männlich Männlich (Kind) Männlich (Kind) Männlich Weiblich Männlich
17	Finnisch	Fi-Fi	Suvi	Weiblich
18	Französisch (Belgisch)	fr-BE	Isabelle	Weiblich
19	Kanadisches Französisch	fr-CA	Gabrielle Liam	Weiblich Männlich
20	Französisch	fr-FR	Léa Remi	Weiblich Männlich
21	Deutsch	de-DE	Vicki Daniel	Weiblich Männlich
22	Deutsch (Österreichisch)	de-AT	Hannah	Weiblich
23	Deutsch (Schweizerisch)	de-CH	Sabrina	Weiblich
24	Hindi	hi-IN	Kajal	Weiblich
25	Italienisch	it-IT	Bianca Adriano	Weiblich Männlich
26	Japanisch	ja-JP	Takumi Kazuha Tomoko	Männlich Weiblich Weiblich
27	Koreanisch	ko-KR	Seoyeon Jihye	Weiblich Weiblich
28	Norwegisch	nb-NO	Ida	Weiblich
29	Polnisch	pl-PL	Ola	Weiblich
30	Portugiesisch (brasilianisch)	pt-BR	Camila Vitória/Vitoria Thiago	Weiblich Weiblich Männlich
31	Portugiesisch (europäisch)	pt-PT	Inês/Ines	Weiblich
32	Spanisch (Spanien)	es-ES	Lucia Sergio	Weiblich Männlich
33	Spanisch (Mexikanisch)	es-MX	Mia Andrés	Weiblich Männlich
34	Spanisch (USA)	es-US	Lupe* Pedro	Weiblich Männlich
35	Schwedisch	sv-SE	Elin	Weiblich
36	Türkisch	tr-TR	Burcu	Weiblich

*Die Stimmen von Amy, Joanna, Lupe und Matthew können im Newscaster-Sprechstil verwendet werden. Weitere Informationen finden Sie unter Die Stimme des Nachrichtensprechers anwenden.

Kompatibilität mit Funktionen und Regionen

Neuronale Stimmen sind nicht in allen AWS Regionen verfügbar und unterstützen auch nicht alle Funktionen von Amazon Polly.

Neuronale Stimmen werden in den folgenden Regionen unterstützt:

USA Ost (Nord-Virginia): us-east-1
USA West (Oregon): us-west-2
Afrika (Kapstadt): af-south-1
Asien-Pazifik (Tokio): ap-northeast-1
Asien-Pazifik (Seoul): ap-northeast-2
Asien-Pazifik (Osaka): ap-northeast-3
Asien-Pazifik (Mumbai): ap-south-1
Asien-Pazifik (Singapur): ap-southeast-1
Asien-Pazifik (Sydney): ap-southeast-2
Asien-Pazifik (Malaysia): ap-southeast-5
Kanada (Zentral): ca-central-1
Europa (Frankfurt): eu-central-1
Europa (Irland): eu-west-1
Europa (London): eu-west-2
Europa (Paris): eu-west-3
Europa (Spanien): eu-south-2
AWS GovCloud (US-West): -1 us-gov-west

Endpunkte und Protokolle für diese Regionen sind identisch mit denen für Standardstimmen. Weitere Informationen finden Sie unter Amazon Polly Polly-Endpunkte und Kontingente.

Die folgenden Funktionen werden für neuronale Stimmen unterstützt:

Echtzeit- und asynchrone Sprachsyntheseoperationen.
Sprechstil von Newscaster. Weitere Informationen zu den Sprechstilen finden Sie unter. Die Stimme des Nachrichtensprechers anwenden
Alle Sprachzeichen.
Viele (aber nicht alle) SSML-Tags, die von Amazon Polly unterstützt werden. Weitere Informationen zu SSML-Tags, die von NTTS unterstützt werden, finden Sie unter Unterstützte Tags.

Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Samplingraten für Standard- und neuronale Stimmen sind 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt MP3 OGG (Vorbis) und Roh-PCM-Audiostreamformate.