Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon Polly verfügt über eine neuronale Engine text-to-speech (NTTS), die Stimmen in noch höherer Qualität erzeugen kann als ihre Standardstimmen. Standard-TTS-Stimmen verwenden eine verkettete Synthese. Die Standard-Engine verkettet Phoneme aufgezeichneter Sprache und erzeugt so eine sehr natürlich klingende synthetisierte Sprache. Die unvermeidlichen Variationen der Sprache und die Techniken, die zum Segmentieren der Wellenformen verwendet werden, beschränken jedoch die Qualität der Sprache. Die Amazon Polly NTTS-Engine verwendet keine standardmäßige verkettete Synthese, um Sprache zu erzeugen. Es besteht aus zwei Teilen:
-
Ein neuronales Netzwerk — das eine Folge von Phonemen (die grundlegendsten Spracheinheiten) in eine Folge von Spektrogrammen umwandelt. (Spektogramme sind Momentaufnahmen der Energieniveaus in verschiedenen Frequenzbändern.)
-
Ein Vocoder — der Spektrogramme in ein nahezu kontinuierliches Audiosignal umwandelt.
Die erste Komponente des neuronalen TTS-Systems ist ein Modell. sequence-to-sequence Dieses Modell erstellt seine Ergebnisse nicht nur aus der entsprechenden Eingabe, sondern berücksichtigt auch, wie die Sequenz der Elemente der Eingabe zusammenarbeiten. Das Modell wählt die ausgegebenen Spektrogramme so aus, dass ihre Frequenzbänder akustische Merkmale betonen, die das menschliche Gehirn bei der Sprachverarbeitung verwendet.
Die Ausgabe dieses Modells wird dann an einen neuronalen Vocoder übergeben. Dadurch werden die Spektrogramme in Sprach-Wellenformen konvertiert. Wenn dieser Ansatz mit den großen Datensätzen trainiert wird, die für den Aufbau von Systemen zur verketteten Synthese für allgemeine Zwecke verwendet werden, wird dieser sequence-to-sequence Ansatz zu qualitativ hochwertigeren und natürlicheren Stimmen führen.
Verfügbare neuronale Stimmen
Neuronale Stimmen sind in 36 Sprachen und Sprachvarianten verfügbar. In der folgenden Tabelle werden die Stimmen aufgelistet.
|
Sprache und Sprachvarianten | Sprachcode | Name/ID | Gender |
---|---|---|---|---|
1 |
Arabisch (Golf) |
Ar-ae |
Hala Zayd |
Weiblich Männlich |
2 |
Belgisches Niederländisch (Flämisch) |
Nl-BE |
Lisa |
Weiblich |
3 |
katalanisch |
CA-es |
Arlet |
Weiblich |
4 |
Tschechisch |
CS-CZ |
Jitka |
Weiblich |
5 |
Chinesisch (Kantonesisch) |
Yue-CN |
Huujin |
Weiblich |
6 |
Chinesisch (Mandarin) |
cmn-CN |
Zhiyu |
Weiblich |
7 |
Dänisch |
da-DK |
Sofie |
Weiblich |
8 |
Niederländisch |
nl-NL |
Laura |
Weiblich |
9 |
Englisch (australisch) |
en-AU |
Olivia |
Weiblich |
10 |
Englisch (britisch) |
en-GB |
Amy* Emma Brian Artur |
Weiblich Weiblich Männlich Männlich |
11 |
Englisch (indisch) |
en-IN |
Kajal |
Weiblich |
12 |
Englisch (Irisch) |
en-IE |
Niamh |
Weiblich |
13 |
Englisch (Neuseeland) |
en-NZ |
Arie |
Weiblich |
14 |
Englisch (Singapurisch) |
en-SG |
Jasmin |
Weiblich |
15 |
Englisch (Südafrikanisch) |
en-ZA |
Ayanda |
Weiblich |
16 |
Englisch (amerikanisch) |
en-US |
Danielle Gregor Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Weiblich Männlich Weiblich (Kind) Weiblich Weiblich Weiblich Weiblich Männlich Männlich (Kind) Männlich (Kind) Männlich Weiblich Männlich |
17 |
Finnisch |
Fi-Fi |
Suvi |
Weiblich |
18 |
Französisch (Belgisch) |
fr-BE |
Isabelle |
Weiblich |
19 |
Kanadisches Französisch |
fr-CA |
Gabrielle Liam |
Weiblich Männlich |
20 |
Französisch |
fr-FR |
Léa Remi |
Weiblich Männlich |
21 |
Deutsch |
de-DE |
Vicki Daniel |
Weiblich Männlich |
22 |
Deutsch (Österreichisch) |
de-AT |
Hannah |
Weiblich |
23 |
Deutsch (Schweizerisch) |
de-CH |
Sabrina |
Weiblich |
24 |
Hindi |
hi-IN |
Kajal |
Weiblich |
25 |
Italienisch |
it-IT |
Bianca Adriano |
Weiblich Männlich |
26 |
Japanisch |
ja-JP |
Takumi Kazuha Tomoko |
Männlich Weiblich Weiblich |
27 |
Koreanisch |
ko-KR |
Seoyeon Jihye |
Weiblich Weiblich |
28 |
Norwegisch |
nb-NO |
Ida |
Weiblich |
29 |
Polnisch |
pl-PL |
Ola |
Weiblich |
30 |
Portugiesisch (brasilianisch) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Weiblich Weiblich Männlich |
31 |
Portugiesisch (europäisch) |
pt-PT |
Inês/Ines |
Weiblich |
32 |
Spanisch (Spanien) |
es-ES |
Lucia Sergio |
Weiblich Männlich |
33 |
Spanisch (Mexikanisch) |
es-MX |
Mia Andrés |
Weiblich Männlich |
34 |
Spanisch (USA) |
es-US |
Lupe* Pedro |
Weiblich Männlich |
35 |
Schwedisch |
sv-SE |
Elin |
Weiblich |
36 |
Türkisch |
tr-TR |
Burcu |
Weiblich |
*Die Stimmen von Amy, Joanna, Lupe und Matthew können im Newscaster-Sprechstil verwendet werden. Weitere Informationen finden Sie unter Die Stimme des Nachrichtensprechers anwenden.
Kompatibilität mit Funktionen und Regionen
Neuronale Stimmen sind nicht in allen AWS Regionen verfügbar und unterstützen auch nicht alle Funktionen von Amazon Polly.
Neuronale Stimmen werden in den folgenden Regionen unterstützt:
-
USA Ost (Nord-Virginia): us-east-1
-
USA West (Oregon): us-west-2
-
Afrika (Kapstadt): af-south-1
-
Asien-Pazifik (Tokio): ap-northeast-1
-
Asien-Pazifik (Seoul): ap-northeast-2
-
Asien-Pazifik (Osaka): ap-northeast-3
-
Asien-Pazifik (Mumbai): ap-south-1
-
Asien-Pazifik (Singapur): ap-southeast-1
-
Asien-Pazifik (Sydney): ap-southeast-2
-
Asien-Pazifik (Malaysia): ap-southeast-5
-
Kanada (Zentral): ca-central-1
-
Europa (Frankfurt): eu-central-1
-
Europa (Irland): eu-west-1
-
Europa (London): eu-west-2
-
Europa (Paris): eu-west-3
-
Europa (Spanien): eu-south-2
-
AWS GovCloud (US-West): -1 us-gov-west
Endpunkte und Protokolle für diese Regionen sind identisch mit denen für Standardstimmen. Weitere Informationen finden Sie unter Amazon Polly Polly-Endpunkte und Kontingente.
Die folgenden Funktionen werden für neuronale Stimmen unterstützt:
-
Echtzeit- und asynchrone Sprachsyntheseoperationen.
-
Sprechstil von Newscaster. Weitere Informationen zu den Sprechstilen finden Sie unter. Die Stimme des Nachrichtensprechers anwenden
-
Alle Sprachzeichen.
-
Viele (aber nicht alle) SSML-Tags, die von Amazon Polly unterstützt werden. Weitere Informationen zu SSML-Tags, die von NTTS unterstützt werden, finden Sie unter Unterstützte Tags.
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Samplingraten für Standard- und neuronale Stimmen sind 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt MP3 OGG (Vorbis) und Roh-PCM-Audiostreamformate.