Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Stimmen in langer Form

Fokusmodus
Stimmen in langer Form - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon Polly verfügt über eine Long-Form-Engine, die menschenähnliche, ausdrucksstarke und emotional versierte Stimmen erzeugt. Langform-Stimmen sind so konzipiert, dass sie die Aufmerksamkeit der Zuhörer auf längere Inhalte wie Nachrichtenartikel, Schulungsmaterial oder Marketingvideos lenken.

Langform-Stimmen von Amazon Polly wurden mit einer hochmodernen Deep-Learning-TTS-Technologie entwickelt. Das Modell lernt, Phoneme, Prosodie, Intonation und andere phonetische und akustische Aspekte der menschlichen Sprache nachzubilden, was zu einer sehr natürlichen Sprachausgabe führt.

Die Langform-Engine verwendet Texteinbettungen, um die Bedeutung eines Textes zu interpretieren. Mithilfe von Texteinbettungen kann die Longform-Engine die richtige Betonung, die richtigen Pausen und den richtigen Ton für eine natürliche Stimme erzeugen. Das Ergebnis ist eine Stimme, die die gesamte Bandbreite der emotionalen Elemente der menschlichen Kommunikation in sich vereint. Dazu gehört die Nachahmung überraschender Dialoge oder die Differenzierung von Erzählungen. Zusammen entsteht so ein erstklassiges Sprachprodukt, das wie ein lebender Mensch klingt.

Anmerkung

Die state-of-the-art Technologie, die diesen Stimmen zugrunde liegt, fällt unter das Paradigma der generativen KI für Sprach- und Stimmmodellierung. Ein Nebeneffekt der Technologie besteht darin, dass jegliche Aktualisierung der Trainingsdaten und des Modells zu geringfügigen Abweichungen im Klang der Stimmen führen kann, selbst wenn sich ihre Gesamtqualität durch Modellaktualisierungen verbessert. Dies könnte sich auf Anwendungsfälle auswirken, bei denen verschiedene Inhaltsteile über einen langen Zeitraum synthetisiert wurden — beispielsweise eine Podcast-Saison.

Verfügbare Stimmen in Langform

Amazon Polly bietet derzeit vier Langform-Stimmen en-US und zwei es-ES an. In beiden Sprachen sind Frauen- und Männerstimmen verfügbar. Die englischen Langformstimmen Daniel, Gregory und Ruth sind auch in einer NTTS-Variante für Konversationen erhältlich.

Sprache Sprachcode Name/ID Gender

1

Englisch (amerikanisch)

en-US

Danielle

Gregor

Ruth

Patrick

Weiblich

Männlich

Weiblich

Männlich

2

Spanisch (Spanien)

es-ES

Alba

Raul

Weiblich

Männlich

Kompatibilität mit Funktionen und Regionen

Langform-Stimmen von Amazon Polly sind in den folgenden Regionen erhältlich:

  • USA Ost (Nord-Virginia): us-east-1

  • Andere Regionen sind nicht verfügbar

Die Amazon Polly Long-Form-Engine unterstützt die folgenden Funktionen:

  • Echtzeit- und asynchrone Sprachsyntheseoperationen.

  • Alle Sprachzeichen.

  • Viele (aber nicht alle) SSML-Tags werden von Amazon Polly unterstützt. Weitere Informationen zu von NTTS unterstützten SSML-Tags finden Sie unter Unterstützte SSML-Tags

  • Wie bei Standardstimmungen können Sie aus verschiedenen Samplingraten wählen, um die Bandbreite und Audioqualität für Ihre Anwendung zu optimieren. Gültige Abtastraten für Standard-, Langform- und neuronale Stimmen sind: 8 kHz, 16 kHz, 22 kHz oder 24 kHz. Der Standardwert für Standardstimmen ist 22 kHz. Die Standardeinstellung für Langform- und neuronale Stimmen ist 24 kHz. Amazon Polly unterstützt MP3 OGG (Vorbis) und Roh-PCM-Audiostreamformate.

Anmerkung

Die Kosten für Langform-Stimmen sind auf der Preisinformationsseite von Amazon Polly angegeben.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.