Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Neuronale Stimmen
Amazon Polly verfügt über eine Neural text-to-speech (NTTS) -Engine, die Stimmen in noch höherer Qualität erzeugen kann als ihre Standardstimmen. TTSStandardstimmen verwenden eine verkettete Synthese. Die Standard-Engine verkettet Phoneme aufgezeichneter Sprache und erzeugt so eine sehr natürlich klingende synthetisierte Sprache. Die unvermeidlichen Variationen der Sprache und die Techniken, die zum Segmentieren der Wellenformen verwendet werden, beschränken jedoch die Qualität der Sprache. Die Amazon Polly NTTS Polly-Engine verwendet keine standardmäßige verkettete Synthese, um Sprache zu erzeugen. Es besteht aus zwei Teilen:
-
Ein neuronales Netzwerk — das eine Folge von Phonemen (die grundlegendsten Spracheinheiten) in eine Folge von Spektrogrammen umwandelt. (Spektogramme sind Momentaufnahmen der Energieniveaus in verschiedenen Frequenzbändern.)
-
Ein Vocoder — der Spektrogramme in ein nahezu kontinuierliches Audiosignal umwandelt.
Die erste Komponente des neuronalen TTS Systems ist ein Modell. sequence-to-sequence Dieses Modell erstellt seine Ergebnisse nicht nur aus der entsprechenden Eingabe, sondern berücksichtigt auch, wie die Sequenz der Elemente der Eingabe zusammenarbeiten. Das Modell wählt die ausgegebenen Spektrogramme so aus, dass ihre Frequenzbänder akustische Merkmale betonen, die das menschliche Gehirn bei der Sprachverarbeitung verwendet.
Die Ausgabe dieses Modells wird dann an einen neuronalen Vocoder übergeben. Dadurch werden die Spektrogramme in Sprach-Wellenformen konvertiert. Wenn dieser Ansatz mit den großen Datensätzen trainiert wird, die für den Aufbau von Allzwecksystemen zur verketteten Synthese verwendet werden, wird dieser sequence-to-sequence Ansatz zu qualitativ hochwertigeren und natürlicheren Stimmen führen.
Verfügbare neuronale Stimmen
Neuronale Stimmen sind in 35 Sprachen und Sprachvarianten erhältlich. In der folgenden Tabelle werden die Stimmen aufgelistet.
|
Sprache und Sprachvarianten | Sprachcode | Name/ID | Gender |
---|---|---|---|---|
1 |
Arabisch (Golf) |
Ar-ae |
Hala Zayd |
Weiblich Männlich |
2 |
Belgisches Niederländisch (Flämisch) |
Nl-BE |
Lisa |
Weiblich |
3 |
katalanisch |
CA-es |
Arlet |
Weiblich |
4 |
Tschechisch |
CS-CZ |
Jitka |
Weiblich |
5 |
Chinesisch (Kantonesisch) |
Yue-CN |
Huujin |
Weiblich |
6 |
Chinesisch (Mandarin) |
cmn-CN |
Zhiyu |
Weiblich |
7 |
Dänisch |
da-DK |
Sofie |
Weiblich |
8 |
Niederländisch |
nl-NL |
Laura |
Weiblich |
9 |
Englisch (australisch) |
en-AU |
Olivia |
Weiblich |
10 |
Englisch (britisch) |
en-GB |
Amy* Emma Brian Artur |
Weiblich Weiblich Männlich Männlich |
11 |
Englisch (indisch) |
en-IN |
Kajal |
Weiblich |
12 |
Englisch (Irisch) |
en-IE |
Niamh |
Weiblich |
13 |
Englisch (Neuseeland) |
en-NZ |
Arie |
Weiblich |
14 |
Englisch (Südafrikanisch) |
en-ZA |
Ayanda |
Weiblich |
15 |
Englisch (amerikanisch) |
en-US |
Danielle Gregor Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Weiblich Männlich Weiblich (Kind) Weiblich Weiblich Weiblich Weiblich Männlich Männlich (Kind) Männlich (Kind) Männlich Weiblich Männlich |
16 |
Finnisch |
Fi-Fi |
Suvi |
Weiblich |
17 |
Französisch (Belgisch) |
fr-BE |
Isabelle |
Weiblich |
18 |
Kanadisches Französisch |
fr-CA |
Gabrielle Liam |
Weiblich Männlich |
19 |
Französisch |
fr-FR |
Léa Remi |
Weiblich Männlich |
20 |
Deutsch |
de-DE |
Vicki Daniel |
Weiblich Männlich |
21 |
Deutsch (Österreichisch) |
de-AT |
Hannah |
Weiblich |
22 |
Deutsch (Schweizerisch) |
de-CH |
Sabrina |
Weiblich |
23 |
Hindi |
hi-IN |
Kajal |
Weiblich |
24 |
Italienisch |
it-IT |
Bianca Adriano |
Weiblich Männlich |
25 |
Japanisch |
ja-JP |
Takumi Kazuha Tomoko |
Männlich Weiblich Weiblich |
26 |
Koreanisch |
ko-KR |
Seoyeon |
Weiblich |
27 |
Norwegisch |
nb-NO |
Ida |
Weiblich |
28 |
Polnisch |
pl-PL |
Ola |
Weiblich |
29 |
Portugiesisch (brasilianisch) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Weiblich Weiblich Männlich |
30 |
Portugiesisch (europäisch) |
pt-PT |
Inês/Ines |
Weiblich |
31 |
Spanisch (europäisch) |
es-ES |
Lucia Sergio |
Weiblich Männlich |
32 |
Spanisch (Mexikanisch) |
es-MX |
Mia Andrés |
Weiblich Männlich |
33 |
Spanisch (USA) |
es-US |
Lupe* Pedro |
Weiblich Männlich |
34 |
Schwedisch |
sv-SE |
Elin |
Weiblich |
35 |
Türkisch |
tr-TR |
Burcu |
Weiblich |
*Die Stimmen von Amy, Joanna, Lupe und Matthew können im Newscaster-Sprechstil verwendet werden. Weitere Informationen finden Sie unter Die Stimme des Nachrichtensprechers anwenden.
Kompatibilität mit Funktionen und Regionen
Neuronale Stimmen sind nicht in allen AWS Regionen verfügbar und unterstützen auch nicht alle Funktionen von Amazon Polly.
Neuronale Stimmen werden in den folgenden Regionen unterstützt:
-
USA Ost (Nord-Virginia): us-east-1
-
USA West (Oregon): us-west-2
-
Afrika (Kapstadt): af-south-1
-
Asien-Pazifik (Tokio): ap-northeast-1
-
Asien-Pazifik (Seoul): ap-northeast-2
-
Asien-Pazifik (Osaka): ap-northeast-3
-
Asien-Pazifik (Mumbai): ap-south-1
-
Asien-Pazifik (Singapur): ap-southeast-1
-
Asien-Pazifik (Sydney): ap-southeast-2
-
Kanada (Zentral): ca-central-1
-
Europa (Frankfurt): eu-central-1
-
Europa (Irland): eu-west-1
-
Europa (London): eu-west-2
-
Europa (Paris): eu-west-3
-
AWS GovCloud (US-West): -1 us-gov-west
Endpunkte und Protokolle für diese Regionen sind identisch mit denen für Standardstimmen. Weitere Informationen finden Sie unter Amazon Polly Polly-Endpunkte und Kontingente.
Die folgenden Funktionen werden für neuronale Stimmen unterstützt:
-
Echtzeit- und asynchrone Sprachsyntheseoperationen.
-
Sprechstil von Newscaster. Weitere Informationen zu den Sprechstilen finden Sie unter. Die Stimme des Nachrichtensprechers anwenden
-
Alle Sprachzeichen.
-
Viele (aber nicht alle) SSML Tags, die von Amazon Polly unterstützt werden. Weitere Informationen zu Tags, die von NTTS -supported werden, finden Sie unter Unterstützte SSML Tags.
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard- und neuronale Stimmen sind 8 kHzkHz, 16kHz, 22 oder 24. kHz Die Standardeinstellung für Standardstimmen ist kHz 22. Die Standardeinstellung für neuronale Stimmen ist kHz 24. Amazon Polly unterstützt MP3 OGG (Vorbis) und PCM RAW-Audiostream-Formate.