SynthesizeSpeech - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SynthesizeSpeech

Synthetisiert UTF-8-Eingabe, Klartext oder SSML in einen Byte-Stream Die SSML-Eingabe muss gültiges, wohlgeformtes SSML sein. Einige Alphabete sind möglicherweise nicht mit allen Stimmen verfügbar (z. B. wird Kyrillisch möglicherweise von englischen Stimmen überhaupt nicht gelesen), es sei denn, es wird eine Phonemzuordnung verwendet. Weitere Informationen finden Sie unter So funktioniert es.

Anforderungssyntax

POST /v1/speech HTTP/1.1 Content-type: application/json { "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string" }

URI-Anfrageparameter

Die Anforderung verwendet keine URI-Parameter.

Anforderungstext

Die Anforderung akzeptiert die folgenden Daten im JSON-Format.

Engine

Gibt die Engine (standard,neural, odergenerative) anlong-form, die Amazon Polly bei der Verarbeitung von Eingabetext für die Sprachsynthese verwenden soll. Stellen Sie eine Engine bereit, die von der ausgewählten Stimme unterstützt wird. Wenn Sie kein Modul angeben, ist standardmäßig das Standardmodul ausgewählt. Wenn eine gewählte Stimme von der Standard-Engine nicht unterstützt wird, führt dies zu einem Fehler. Informationen zu Amazon Polly-Stimmen und zu den Stimmen, die für die einzelnen Engines verfügbar sind, finden Sie unter Verfügbare Stimmen.

Typ: Zeichenfolge

Zulässige Werte: standard | neural | long-form | generative

Erforderlich: Ja

Typ: Zeichenfolge

Zulässige Werte: standard | neural | long-form | generative

Erforderlich: Nein

LanguageCode

Optionaler Sprachcode für die Synthesize Speech-Anforderung. Dies ist nur erforderlich, wenn Sie eine zweisprachige Stimme wie Aditi verwenden, die entweder für indisches Englisch (en-IN) oder Hindi (Hi-in) verwendet werden kann.

Wenn eine zweisprachige Stimme verwendet wird und kein Sprachcode angegeben ist, verwendet Amazon Polly die Standardsprache der zweisprachigen Stimme. Die Standardsprache für jede Stimme ist die Sprache, die bei der Operation für den DescribeVoicesParameter zurückgegeben wurde. LanguageCode Wenn beispielsweise kein Sprachcode angegeben ist, verwendet Aditi indisches Englisch statt Hindi.

Typ: Zeichenfolge

Zulässige Werte: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS | en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT | ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR | en-NZ | en-ZA | ca-ES | de-AT | yue-CN | ar-AE | fi-FI | en-IE | nl-BE | fr-BE

Erforderlich: Nein

LexiconNames

Liste mit einem oder mehreren Aussprache-Lexikonnamen, die der Dienst bei der Synthese anwenden soll. Lexika werden nur angewendet, wenn die Sprache des Lexikons mit der Sprache der Stimme übereinstimmt. Hinweise zum Speichern von Lexika finden Sie unter. PutLexicon

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 5 Elementen.

Pattern: [0-9A-Za-z]{1,20}

Erforderlich: Nein

OutputFormat

Das Format, in dem die zurückgegebene Ausgabe codiert wird. Für Audiostreams ist dies mp3, ogg_vorbis oder pcm. Für Sprachmarken ist dies json.

Wenn pcm verwendet wird, ist der zurückgegebene Inhalt Audio/pcm in einem signierten 16-Bit-Little-Endian-Format mit 1 Kanal (mono).

Typ: Zeichenfolge

Zulässige Werte: json | mp3 | ogg_vorbis | pcm

Erforderlich: Ja

SampleRate

Die in Hz angegebene Audiofrequenz.

Die gültigen Werte für mp3 und ogg_vorbis sind „8000", „16000", „22050" und „24000". Der Standardwert für Standardstimmen ist „22050". Der Standardwert für neuronale Stimmen ist „24000". Der Standardwert für Stimmen in Langform ist „24000". Der Standardwert für generative Stimmen ist „24000".

Gültige Werte für pcm sind „8000" und „16000". Der Standardwert ist „16000".

Typ: Zeichenfolge

Erforderlich: Nein

SpeechMarkTypes

Der Typ der Sprachzeichen, die für den Eingabetext zurückgegeben wurden.

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 4 Elementen.

Zulässige Werte: sentence | ssml | viseme | word

Erforderlich: Nein

Text

Geben Sie den zu synthetisierenden Text ein. Wenn Sie ssml als angebenTextType, folgen Sie dem SSML-Format für den Eingabetext.

Typ: Zeichenfolge

Erforderlich: Ja

TextType

Gibt an, ob der Eingabetext Klartext oder SSML ist. Der Standardwert ist Klartext. Weitere Informationen finden Sie unter Verwenden von SSML.

Typ: Zeichenfolge

Zulässige Werte: ssml | text

Erforderlich: Nein

VoiceId

Sprach-ID, die für die Synthese verwendet werden soll. Sie können eine Liste der verfügbaren Sprach-IDs abrufen, indem Sie den DescribeVoicesVorgang aufrufen.

Typ: Zeichenfolge

Zulässige Werte: Aditi | Amy | Astrid | Bianca | Brian | Camila | Carla | Carmen | Celine | Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz | Gabrielle | Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna | Joey | Justin | Karl | Kendra | Kevin | Kimberly | Lea | Liv | Lotte | Lucia | Lupe | Mads | Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja | Nicole | Olivia | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon | Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu | Aria | Ayanda | Arlet | Hannah | Arthur | Daniel | Liam | Pedro | Kajal | Hiujin | Laura | Elin | Ida | Suvi | Ola | Hala | Andres | Sergio | Remi | Adriano | Thiago | Ruth | Stephen | Kazuha | Tomoko | Niamh | Sofie | Lisa | Isabelle | Zayd | Danielle | Gregory | Burcu

Erforderlich: Ja

Antwortsyntax

HTTP/1.1 200 Content-Type: ContentType x-amzn-RequestCharacters: RequestCharacters AudioStream

Antwortelemente

Wenn die Aktion erfolgreich ist, sendet der Service eine HTTP 200-Antwort zurück.

Die Antwort gibt die folgenden HTTP-Header zurück.

ContentType

Gibt den Typ des Audiostreams an. Dies sollte den OutputFormat Parameter in Ihrer Anfrage widerspiegeln.

  • Wenn Sie mp3 als die anfordernOutputFormat, wird ContentType audio/mpeg zurückgegeben.

  • Wenn Sie ogg_vorbis als angebenOutputFormat, wird Audio/OGG ContentType zurückgegeben.

  • Wenn Sie pcm als die anfordernOutputFormat, wird Audio/pcm in einem signierten 16-Bit-Little-Endian-Format mit 1 Kanal (mono) ContentType zurückgegeben.

  • Wenn Sie als die anfordernjson, lautet die zurückgegebene Datei application/. OutputFormat ContentType x-json-stream

RequestCharacters

Anzahl der synthetisierten Zeichen.

Die Antwort gibt folgendes als HTTP-Hauptteil zurück.

AudioStream

Stream, der die synthetisierte Sprache enthält.

Fehler

EngineNotSupportedException

Diese Engine ist mit der von Ihnen angegebenen Stimme nicht kompatibel. Wählen Sie eine neue Stimme, die mit der Engine kompatibel ist, oder wechseln Sie die Engine und starten Sie den Vorgang erneut.

HTTP Status Code: 400

InvalidSampleRateException

Die angegebene Samplerate ist nicht gültig.

HTTP Status Code: 400

InvalidSsmlException

Die von Ihnen angegebene SSML ist ungültig. Überprüfen Sie die SSML-Syntax sowie die Schreibweise der Tags und Werte, und versuchen Sie es erneut.

HTTP Status Code: 400

LanguageNotSupportedException

Die angegebene Sprache wird derzeit von Amazon Polly in dieser Funktion nicht unterstützt.

HTTP Status Code: 400

LexiconNotFoundException

Amazon Polly kann das angegebene Lexikon nicht finden. Dies kann durch ein fehlendes Lexikon, durch einen falsch geschriebenen Namen oder durch die Angabe eines Lexikons in einer anderen Region verursacht werden.

Vergewissern Sie sich, dass das Lexikon existiert, sich in der Region befindet (sieheListLexicons) und ob Sie den Namen richtig geschrieben haben. Versuchen Sie es dann erneut.

HTTP Status Code: 404

MarksNotSupportedForFormatException

Sprachzeichen werden für die OutputFormat ausgewählten Elemente nicht unterstützt. Sprachzeichen sind nur für Inhalte im json Format verfügbar.

HTTP Status Code: 400

ServiceFailureException

Ein unbekannter Zustand hat zu einem Dienstausfall geführt.

HTTP Status Code: 500

SsmlMarksNotSupportedForTextTypeException

SSML-Sprachzeichen werden für Klartexteingaben nicht unterstützt.

HTTP Status Code: 400

TextLengthExceededException

Der Wert des Parameters „Text“ überschreitet die zulässigen Grenzwerte. Für die SynthesizeSpeech API beträgt das Limit für Eingabetext insgesamt maximal 6000 Zeichen, von denen nicht mehr als 3000 fakturierte Zeichen sein können. Für die StartSpeechSynthesisTask API liegt das Maximum bei 200.000 Zeichen, wovon nicht mehr als 100.000 fakturierte Zeichen sein können. SSML-Tags werden nicht als berechnete Zeichen gezählt.

HTTP Status Code: 400

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS SDKs finden Sie im Folgenden: