Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Generative Stimmen
Die generative text-to-speech (TTS) Engine von Amazon Polly bietet die menschenähnlichsten, emotional engagiertesten und anpassungsfähigsten Konversationsstimmen, die für die Nutzung über die Amazon Polly Polly-Konsole verfügbar sind.
Die Generative Engine ist das bisher größte Amazon Polly TTS Polly-Modell. Sie verwendet einen Transformator mit Milliarden Parametern, der Rohtext in Sprachcodes umwandelt, gefolgt von einem auf Faltung basierenden Decoder, der diese Sprachcodes schrittweise und streamfähig in Wellenformen umwandelt. Diese Methode verdeutlicht, welche Fähigkeiten Large Language Models (LLMs) häufig zeigen, wenn sie mit immer größeren Mengen öffentlich verfügbarer und urheberrechtlich geschützter Daten trainiert werden, die eine Vielzahl von Stimmen, Sprachen und Stilen beinhalten.
Die generative Engine erzeugt synthetische Sprache, die emotional engagiert, durchsetzungsfähig und sehr umgangssprachlich ist, und zwar auf eine Weise, die der menschlichen Stimme bemerkenswert ähnlich ist. Sie können diese Stimmen als sachkundigen Kundenassistenten, als virtuellen Trainer oder als Werbetreibender mit einer fast menschlichen synthetischen Sprache verwenden.
Anmerkung
Die state-of-the-art Technologie, die diesen Stimmen zugrunde liegt, fällt in das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.
Verfügbare generative Stimmen
Amazon Polly bietet derzeit 20 Stimmen in einer generativen Variante an. Diese generativen Stimmen sind auch in einer NTTS Konversationsvariante erhältlich.
Sprache | Sprachcode | Name/ID | Gender | |
---|---|---|---|---|
1 |
Englisch (australisch) |
en-AU |
Olivia |
Weiblich |
2 |
Englisch (indisch) |
en-IN |
Kajal |
Weiblich |
3 |
Englisch (Großbritannien) |
en-GB |
Amy |
Weiblich |
4 |
Englisch (amerikanisch) |
en-US |
Danielle |
Weiblich |
5 |
Englisch (amerikanisch) |
en-US |
Joanna |
Weiblich |
6 |
Englisch (amerikanisch) |
en-US |
Matthew |
Männlich |
7 |
Englisch (amerikanisch) |
en-US |
Ruth |
Weiblich |
8 |
Englisch (amerikanisch) |
en-US |
Stephen |
Männlich |
9 |
Englisch (Südafrikanisch) |
en-ZA |
Ayanda |
Weiblich |
10 |
Französisch (Frankreich) |
fr-FR |
Léa |
Weiblich |
11 |
Französisch (Frankreich) |
fr-FR |
Rémi |
Männlich |
12 |
Spanisch (Spanien) |
es-ES |
Lucia |
Weiblich |
13 |
Spanisch (Spanien) |
es-ES |
Sergio |
Männlich |
14 |
Spanisch (Mexikanisch) |
es-MX |
Mía |
Weiblich |
15 |
Spanisch (Mexikanisch) |
es-MX |
Andrés |
Männlich |
16 |
Spanisch (USA) |
es-US |
Lupe |
Weiblich |
17 |
Spanisch (US) |
es-US |
Pedro |
Männlich |
18 |
Deutsch (Deutschland) |
de-DE |
Vicki |
Weiblich |
19 |
Deutsch (Deutschland) |
de-DE |
Daniel |
Männlich |
20 |
Italienisch (Italien) |
it-IT |
Bianca |
Weiblich |
Anmerkung
Die Kosten für Generative Stimmen sind auf der Preisinformationsseite von Amazon Polly
Kompatibilität mit Funktionen und Regionen
Generative Stimmen von Amazon Polly sind in den folgenden Regionen verfügbar:
-
USA Ost (Nord-Virginia): us-east-1
-
Europa (Frankfurt): eu-central-1
-
USA West (Oregon): us-west-2
-
Andere Regionen sind nicht verfügbar
Die folgenden Funktionen werden für generative Stimmen unterstützt:
-
Echtzeit- und asynchrone Sprachsyntheseoperationen.
-
Der Sprechstil von Newscaster wird in der Generative Engine nicht unterstützt.
-
Viele (aber nicht alle) SSML Tags werden von Amazon Polly unterstützt. Weitere Informationen zu Tags, die von NTTS -supported werden, finden Sie unter Unterstützte SSML Tags SSML
-
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard- und neuronale Stimmen sind 8 kHzkHz, 16kHz, 22 oder 24. kHz Die Standardeinstellung für Standardstimmen ist kHz 22. Die Standardeinstellung für generative Stimmen ist kHz 24. Amazon Polly unterstützt MP3 OGG (Vorbis) und PCM RAW-Audiostream-Formate.
Support für die Generierung von Sprachmarken ist derzeit nicht verfügbar.
Anmerkung
Für den unwahrscheinlichen Fall einer Modellhalluzination (und aufgrund des Modellverhaltens der Generative Engine, die Sprache Zeichen für Zeichen wiederzugeben) ist ein Not-Aus-Mechanismus vorgesehen. Der eingebaute Mechanismus verhindert, dass das Modell Sprache weiter wiedergibt. Dieses Sicherheitsmerkmal basiert auf einer Datenanalyse, bei der das Modell halluzinieren kann, normalerweise am Ende des Satzes.
Es kann Fälle geben, in denen das Modell denkt, es würde halluzinieren, und dann während eines Generationsschritts ein Wort herausschneiden und so die Hälfte des Wortes wiedergeben. Dies könnte möglicherweise zu unangemessenen Ergebnissen führen.