SynthesizeSpeech - Amazon Polly

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SynthesizeSpeech

Synthetisiert UTF -8 Eingaben, Klartext oderSSML, zu einem Bytestrom. SSMLDie Eingabe muss gültig und wohlgeformt sein. SSML Einige Alphabete sind möglicherweise nicht mit allen Stimmen verfügbar (z. B. wird Kyrillisch möglicherweise von englischen Stimmen überhaupt nicht gelesen), es sei denn, es wird eine Phonemzuordnung verwendet. Weitere Informationen finden Sie unter So funktioniert es.

Anforderungssyntax

POST /v1/speech HTTP/1.1 Content-type: application/json { "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string" }

URIParameter anfordern

Die Anfrage verwendet keine URI Parameter.

Anforderungstext

Die Anfrage akzeptiert die folgenden Daten im JSON Format.

Engine

Gibt die Engine (standard,neural, odergenerative) anlong-form, die Amazon Polly bei der Verarbeitung von Eingabetext für die Sprachsynthese verwenden soll. Stellen Sie eine Engine bereit, die von der ausgewählten Stimme unterstützt wird. Wenn Sie kein Modul angeben, ist standardmäßig das Standardmodul ausgewählt. Wenn eine gewählte Stimme von der Standard-Engine nicht unterstützt wird, führt dies zu einem Fehler. Informationen zu Amazon Polly-Stimmen und zu den Stimmen, die für die einzelnen Engines verfügbar sind, finden Sie unter Verfügbare Stimmen.

Typ: Zeichenfolge

Zulässige Werte: standard | neural | long-form | generative

Erforderlich: Ja

Typ: Zeichenfolge

Zulässige Werte: standard | neural | long-form | generative

Erforderlich: Nein

LanguageCode

Optionaler Sprachcode für die Synthesize Speech-Anforderung. Dies ist nur erforderlich, wenn Sie eine zweisprachige Stimme wie Aditi verwenden, die entweder für indisches Englisch (en-IN) oder Hindi (Hi-in) verwendet werden kann.

Wenn eine zweisprachige Stimme verwendet wird und kein Sprachcode angegeben ist, verwendet Amazon Polly die Standardsprache der zweisprachigen Stimme. Die Standardsprache für jede Stimme ist die Sprache, die bei der Operation für den DescribeVoicesParameter zurückgegeben wurde. LanguageCode Wenn beispielsweise kein Sprachcode angegeben ist, verwendet Aditi indisches Englisch statt Hindi.

Typ: Zeichenfolge

Zulässige Werte: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS | en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT | ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR | en-NZ | en-ZA | ca-ES | de-AT | yue-CN | ar-AE | fi-FI | en-IE | nl-BE | fr-BE | cs-CZ | de-CH

Erforderlich: Nein

LexiconNames

Liste mit einem oder mehreren Aussprache-Lexikonnamen, die der Dienst bei der Synthese anwenden soll. Lexika werden nur angewendet, wenn die Sprache des Lexikons mit der Sprache der Stimme übereinstimmt. Hinweise zum Speichern von Lexika finden Sie unter. PutLexicon

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 5 Elementen.

Pattern: [0-9A-Za-z]{1,20}

Erforderlich: Nein

OutputFormat

Das Format, in dem die zurückgegebene Ausgabe codiert wird. Für Audiostreams ist dies mp3, ogg_vorbis oder pcm. Für Sprachmarken ist dies json.

Wenn pcm verwendet wird, ist der zurückgegebene Inhalt Audio/pcm in einem signierten 16-Bit-Little-Endian-Format mit 1 Kanal (mono).

Typ: Zeichenfolge

Zulässige Werte: json | mp3 | ogg_vorbis | pcm

Erforderlich: Ja

SampleRate

Die in Hz angegebene Audiofrequenz.

Die gültigen Werte für mp3 und ogg_vorbis sind „8000", „16000", „22050" und „24000". Der Standardwert für Standardstimmen ist „22050". Der Standardwert für neuronale Stimmen ist „24000". Der Standardwert für Stimmen in Langform ist „24000". Der Standardwert für generative Stimmen ist „24000".

Gültige Werte für pcm sind „8000" und „16000". Der Standardwert ist „16000".

Typ: Zeichenfolge

Erforderlich: Nein

SpeechMarkTypes

Der Typ der Sprachzeichen, die für den Eingabetext zurückgegeben wurden.

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 4 Elementen.

Zulässige Werte: sentence | ssml | viseme | word

Erforderlich: Nein

Text

Geben Sie den zu synthetisierenden Text ein. Wenn Sie ssml als angebenTextType, folgen Sie dem SSML Format für den Eingabetext.

Typ: Zeichenfolge

Erforderlich: Ja

TextType

Gibt an, ob der Eingabetext Klartext ist oderSSML. Der Standardwert ist Klartext. Weitere Informationen finden Sie unter Verwendung von SSML.

Typ: Zeichenfolge

Zulässige Werte: ssml | text

Erforderlich: Nein

VoiceId

Sprach-ID, die für die Synthese verwendet werden soll. Sie können eine Liste der verfügbaren Sprachbefehle abrufen, IDs indem Sie den DescribeVoicesVorgang aufrufen.

Typ: Zeichenfolge

Zulässige Werte: Aditi | Amy | Astrid | Bianca | Brian | Camila | Carla | Carmen | Celine | Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz | Gabrielle | Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna | Joey | Justin | Karl | Kendra | Kevin | Kimberly | Lea | Liv | Lotte | Lucia | Lupe | Mads | Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja | Nicole | Olivia | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon | Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu | Aria | Ayanda | Arlet | Hannah | Arthur | Daniel | Liam | Pedro | Kajal | Hiujin | Laura | Elin | Ida | Suvi | Ola | Hala | Andres | Sergio | Remi | Adriano | Thiago | Ruth | Stephen | Kazuha | Tomoko | Niamh | Sofie | Lisa | Isabelle | Zayd | Danielle | Gregory | Burcu | Jitka | Sabrina

Erforderlich: Ja

Antwortsyntax

HTTP/1.1 200 Content-Type: ContentType x-amzn-RequestCharacters: RequestCharacters AudioStream

Antwortelemente

Wenn die Aktion erfolgreich ist, sendet der Dienst eine HTTP 200-Antwort zurück.

Die Antwort gibt die folgenden HTTP Header zurück.

ContentType

Gibt den Typ des Audiostreams an. Dies sollte den OutputFormat Parameter in Ihrer Anfrage widerspiegeln.

  • Wenn Sie mp3 als die anfordernOutputFormat, wird ContentType audio/mpeg zurückgegeben.

  • Wenn Sie ogg_vorbis als angebenOutputFormat, wird Audio/OGG ContentType zurückgegeben.

  • Wenn Sie pcm als die anfordernOutputFormat, wird Audio/pcm in einem signierten 16-Bit-Little-Endian-Format mit 1 Kanal (mono) ContentType zurückgegeben.

  • Wenn Sie als die anfordernjson, lautet die zurückgegebene Datei application/. OutputFormat ContentType x-json-stream

RequestCharacters

Anzahl der synthetisierten Zeichen.

Die Antwort gibt Folgendes als HTTP Hauptteil zurück.

AudioStream

Stream, der die synthetisierte Sprache enthält.

Fehler

EngineNotSupportedException

Diese Engine ist mit der von Ihnen angegebenen Stimme nicht kompatibel. Wählen Sie eine neue Stimme, die mit der Engine kompatibel ist, oder wechseln Sie die Engine und starten Sie den Vorgang erneut.

HTTPStatuscode: 400

InvalidSampleRateException

Die angegebene Samplerate ist nicht gültig.

HTTPStatuscode: 400

InvalidSsmlException

Der von SSML Ihnen angegebene Wert ist ungültig. Überprüfen Sie die SSML Syntax und Schreibweise der Tags und Werte, und versuchen Sie es erneut.

HTTPStatuscode: 400

LanguageNotSupportedException

Die angegebene Sprache wird derzeit von Amazon Polly in dieser Funktion nicht unterstützt.

HTTPStatuscode: 400

LexiconNotFoundException

Amazon Polly kann das angegebene Lexikon nicht finden. Dies kann durch ein fehlendes Lexikon, durch einen falsch geschriebenen Namen oder durch die Angabe eines Lexikons in einer anderen Region verursacht werden.

Vergewissern Sie sich, dass das Lexikon existiert, sich in der Region befindet (sieheListLexicons) und ob Sie den Namen richtig geschrieben haben. Versuchen Sie es dann erneut.

HTTPStatuscode: 404

MarksNotSupportedForFormatException

Sprachmarken werden für die OutputFormat ausgewählten Geräte nicht unterstützt. Sprachzeichen sind nur für Inhalte im json Format verfügbar.

HTTPStatuscode: 400

ServiceFailureException

Ein unbekannter Zustand hat zu einem Dienstausfall geführt.

HTTPStatuscode: 500

SsmlMarksNotSupportedForTextTypeException

SSMLSprachzeichen werden für Klartexteingaben nicht unterstützt.

HTTPStatuscode: 400

TextLengthExceededException

Der Wert des Parameters „Text“ ist länger als die akzeptierten Grenzwerte. Für den SynthesizeSpeech API liegt das Limit für den Eingabetext bei insgesamt maximal 6000 Zeichen, von denen nicht mehr als 3000 Zeichen fakturiert werden können. Für den StartSpeechSynthesisTask API liegt das Maximum bei 200.000 Zeichen, von denen nicht mehr als 100.000 fakturierte Zeichen sein können. SSMLTags werden nicht als fakturierte Zeichen gezählt.

HTTPStatuscode: 400

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung API in einer der sprachspezifischen Sprachen AWS SDKs finden Sie im Folgenden: