Stimmen in langer Form

Fokusmodus

Stimmen in langer Form - Amazon Polly

Verfügbare Stimmen in Langform Kompatibilität mit Funktionen und Regionen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Polly verfügt über eine Long-Form-Engine, die menschenähnliche, ausdrucksstarke und emotional versierte Stimmen erzeugt. Langform-Stimmen sind so konzipiert, dass sie die Aufmerksamkeit der Zuhörer auf längere Inhalte wie Nachrichtenartikel, Schulungsmaterial oder Marketingvideos lenken.

Langform-Stimmen von Amazon Polly wurden mit einer hochmodernen Deep-Learning-TTS-Technologie entwickelt. Das Modell lernt, Phoneme, Prosodie, Intonation und andere phonetische und akustische Aspekte der menschlichen Sprache nachzubilden, was zu einer sehr natürlichen Sprachausgabe führt.

Die Langform-Engine verwendet Texteinbettungen, um die Bedeutung eines Textes zu interpretieren. Mithilfe von Texteinbettungen kann die Longform-Engine die richtige Betonung, die richtigen Pausen und den richtigen Ton für eine natürliche Stimme erzeugen. Das Ergebnis ist eine Stimme, die die gesamte Bandbreite der emotionalen Elemente der menschlichen Kommunikation in sich vereint. Dazu gehört die Nachahmung überraschender Dialoge oder die Differenzierung von Erzählungen. Zusammen entsteht so ein erstklassiges Sprachprodukt, das wie ein lebender Mensch klingt.

Anmerkung

Die state-of-the-art Technologie, die diesen Stimmen zugrunde liegt, fällt unter das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.

Verfügbare Stimmen in Langform

Amazon Polly bietet derzeit vier Langform-Stimmen en-US und zwei es-ES an. In beiden Sprachen sind Frauen- und Männerstimmen verfügbar. Die englischen Langformstimmen Daniel, Gregory und Ruth sind auch in einer NTTS-Variante für Konversationen erhältlich.

	Sprache	Sprachcode	Name/ID	Gender
1	Englisch (amerikanisch)	en-US	Danielle Gregor Ruth Patrick	Weiblich Männlich Weiblich Männlich
2	Spanisch (Spanien)	es-ES	Alba Raul	Weiblich Männlich

Sprache

Sprachcode

Name/ID

Gender

Englisch (amerikanisch)

en-US

Danielle

Gregor

Ruth

Patrick

Weiblich

Männlich

Weiblich

Männlich

Spanisch (Spanien)

es-ES

Alba

Raul

Weiblich

Männlich

Kompatibilität mit Funktionen und Regionen

Langform-Stimmen von Amazon Polly sind in den folgenden Regionen erhältlich:

USA Ost (Nord-Virginia): us-east-1
Andere Regionen sind nicht verfügbar

Die Amazon Polly Long-Form-Engine unterstützt die folgenden Funktionen:

Echtzeit- und asynchrone Sprachsyntheseoperationen.
Alle Sprachzeichen.
Viele (aber nicht alle) SSML-Tags werden von Amazon Polly unterstützt. Weitere Informationen zu von NTTS unterstützten SSML-Tags finden Sie unter Unterstützte SSML-Tags
Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard-, Langform- und neuronale Stimmen sind: 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für Langform- und neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt MP3 OGG (Vorbis) und Roh-PCM-Audiostreamformate.