Anforderungssyntax URI-Anfrageparameter Anforderungstext Antwortsyntax Antwortelemente Fehler Weitere Informationen finden Sie unter:

SynthesizeSpeech

Synthetisiert UTF-8-Eingabe, Klartext oder SSML in einen Byte-Stream Die SSML-Eingabe muss gültiges, wohlgeformtes SSML sein. Einige Alphabete sind möglicherweise nicht mit allen Stimmen verfügbar (z. B. wird Kyrillisch möglicherweise von englischen Stimmen überhaupt nicht gelesen), es sei denn, es wird eine Phonemzuordnung verwendet. Weitere Informationen finden Sie unter So funktioniert es.

Anforderungssyntax


POST /v1/speech HTTP/1.1
Content-type: application/json

{
   "Engine": "string",
   "LanguageCode": "string",
   "LexiconNames": [ "string" ],
   "OutputFormat": "string",
   "SampleRate": "string",
   "SpeechMarkTypes": [ "string" ],
   "Text": "string",
   "TextType": "string",
   "VoiceId": "string"
}

URI-Anfrageparameter

Die Anforderung verwendet keine URI-Parameter.

Anforderungstext

Die Anforderung akzeptiert die folgenden Daten im JSON-Format.

Engine

Gibt die Engine (standard,neural, odergenerative) anlong-form, die Amazon Polly bei der Verarbeitung von Eingabetext für die Sprachsynthese verwenden soll. Stellen Sie eine Engine bereit, die von der ausgewählten Stimme unterstützt wird. Wenn Sie kein Modul angeben, ist standardmäßig das Standardmodul ausgewählt. Wenn eine gewählte Stimme von der Standard-Engine nicht unterstützt wird, führt dies zu einem Fehler. Informationen zu Amazon Polly-Stimmen und zu den Stimmen, die für die einzelnen Engines verfügbar sind, finden Sie unter Verfügbare Stimmen.

Typ: Zeichenfolge

Zulässige Werte: standard | neural | long-form | generative

Erforderlich: Nein

LanguageCode

Optionaler Sprachcode für die Synthesize Speech-Anforderung. Dies ist nur erforderlich, wenn Sie eine zweisprachige Stimme wie Aditi verwenden, die entweder für indisches Englisch (en-IN) oder Hindi (Hi-in) verwendet werden kann.

Wenn eine zweisprachige Stimme verwendet wird und kein Sprachcode angegeben ist, verwendet Amazon Polly die Standardsprache der zweisprachigen Stimme. Die Standardsprache für jede Stimme ist die Sprache, die bei der Operation für den DescribeVoicesParameter zurückgegeben wurde. LanguageCode Wenn beispielsweise kein Sprachcode angegeben ist, verwendet Aditi indisches Englisch statt Hindi.

Typ: Zeichenfolge

Erforderlich: Nein

LexiconNames

Liste mit einem oder mehreren Aussprache-Lexikonnamen, die der Dienst bei der Synthese anwenden soll. Lexika werden nur angewendet, wenn die Sprache des Lexikons mit der Sprache der Stimme übereinstimmt. Hinweise zum Speichern von Lexika finden Sie unter. PutLexicon

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 5 Elementen.

Pattern: [0-9A-Za-z]{1,20}

Erforderlich: Nein

OutputFormat

Das Format, in dem die zurückgegebene Ausgabe codiert wird. Für Audiostreams ist dies mp3, ogg_vorbis, ogg_opus, mu-law, a-law oder pcm. Für Sprachzeichen wird dies json sein.

Wenn pcm verwendet wird, liegt der zurückgegebene Inhalt audio/pcm in einem vorzeichenbehafteten 16-Bit-Little-Endian-Format mit 1 Kanal (mono) vor.

Typ: Zeichenfolge

Erforderlich: Ja

SampleRate

Die in Hz angegebene Audiofrequenz.

Die gültigen Werte für mp3 und ogg_vorbis sind „8000", „16000", „22050", „24000", „44100" und „48000". Der Standardwert für Standardstimmen ist „22050". Der Standardwert für neuronale Stimmen ist „24000". Der Standardwert für Stimmen in Langform ist „24000". Der Standardwert für generative Stimmen ist „24000".

Gültige Werte für pcm sind „8000" und „16000". Der Standardwert ist „16000".

Der gültige Wert für ogg_opus ist „48000".

Der gültige Wert für mu-law und a-law ist „8000".

Typ: Zeichenfolge

Erforderlich: Nein

SpeechMarkTypes

Der Typ der Sprachzeichen, die für den Eingabetext zurückgegeben wurden.

Typ: Zeichenfolgen-Array

Array-Mitglieder: Maximale Anzahl von 4 Elementen.

Zulässige Werte: sentence | ssml | viseme | word

Erforderlich: Nein

Text

Geben Sie den zu synthetisierenden Text ein. Wenn Sie ssml als angebenTextType, folgen Sie dem SSML-Format für den Eingabetext.

Typ: Zeichenfolge

Erforderlich: Ja

TextType

Gibt an, ob der Eingabetext Klartext oder SSML ist. Der Standardwert ist Klartext. Weitere Informationen finden Sie unter Verwenden von SSML.

Typ: Zeichenfolge

Zulässige Werte: ssml | text

Erforderlich: Nein

VoiceId

Sprach-ID, die für die Synthese verwendet werden soll. Sie können eine Liste der verfügbaren Sprachbefehle abrufen, IDs indem Sie den DescribeVoicesVorgang aufrufen.

Typ: Zeichenfolge

Erforderlich: Ja

Antwortsyntax


HTTP/1.1 200
Content-Type: ContentType
x-amzn-RequestCharacters: RequestCharacters

AudioStream

Antwortelemente

Wenn die Aktion erfolgreich ist, sendet der Service eine HTTP 200-Antwort zurück.

Die Antwort gibt die folgenden HTTP-Header zurück.

ContentType

Gibt den Typ des Audiostreams an. Dies sollte den OutputFormat Parameter in Ihrer Anfrage widerspiegeln.

Wenn Sie mp3 als die anfordernOutputFormat, wird ContentType audio/mpeg zurückgegeben.
Wenn Sie ogg_vorbis als angebenOutputFormat, wird Audio/OGG ContentType zurückgegeben.
Wenn Sie ogg_opus als angebenOutputFormat, ist das ContentType zurückgegebene Objekt Audio/OGG.
Wenn Sie pcm als die anfordernOutputFormat, erfolgt die ContentType Rückgabe audio/pcm in einem vorzeichenbehafteten 16-Bit-Little-Endian-Format mit 1 Kanal (mono).
Wenn Sie mu-law als angeben, ist das zurückgegebene OutputFormat Audio/Mulaw. ContentType
Wenn Sie a-law als die anfordernOutputFormat, ist die ContentType zurückgegebene Antwort audio/alaw.
Wenn Sie json als die anfordernOutputFormat, lautet die ContentType zurückgegebene Datei application/. x-json-stream

RequestCharacters

Anzahl der synthetisierten Zeichen.

Die Antwort gibt folgendes als HTTP-Hauptteil zurück.

AudioStream: Stream, der die synthetisierte Sprache enthält.

Fehler

EngineNotSupportedException

Diese Engine ist mit der von Ihnen angegebenen Stimme nicht kompatibel. Wählen Sie eine neue Stimme, die mit der Engine kompatibel ist, oder wechseln Sie die Engine und starten Sie den Vorgang erneut.

HTTP-Statuscode: 400

InvalidSampleRateException

Die angegebene Samplerate ist nicht gültig.

HTTP-Statuscode: 400

InvalidSsmlException

Die von Ihnen angegebene SSML ist ungültig. Überprüfen Sie die SSML-Syntax sowie die Schreibweise der Tags und Werte, und versuchen Sie es erneut.

HTTP-Statuscode: 400

LanguageNotSupportedException

Die angegebene Sprache wird derzeit von Amazon Polly in dieser Funktion nicht unterstützt.

HTTP-Statuscode: 400

LexiconNotFoundException

Amazon Polly kann das angegebene Lexikon nicht finden. Dies kann durch ein fehlendes Lexikon, durch einen falsch geschriebenen Namen oder durch die Angabe eines Lexikons in einer anderen Region verursacht werden.

Vergewissern Sie sich, dass das Lexikon existiert, sich in der Region befindet (sieheListLexicons) und ob Sie den Namen richtig geschrieben haben. Versuchen Sie es dann erneut.

HTTP-Statuscode: 404

MarksNotSupportedForFormatException

Sprachzeichen werden für die OutputFormat ausgewählten Elemente nicht unterstützt. Sprachzeichen sind nur für Inhalte im json Format verfügbar.

HTTP-Statuscode: 400

ServiceFailureException

Ein unbekannter Zustand hat zu einem Dienstausfall geführt.

HTTP Status Code: 500

SsmlMarksNotSupportedForTextTypeException

SSML-Sprachzeichen werden für Klartexteingaben nicht unterstützt.

HTTP-Statuscode: 400

TextLengthExceededException

Der Wert des Parameters „Text“ ist länger als die akzeptierten Grenzwerte. Für die SynthesizeSpeech API beträgt das Limit für Eingabetext insgesamt maximal 6000 Zeichen, von denen nicht mehr als 3000 fakturierte Zeichen sein können. Für die StartSpeechSynthesisTask API liegt das Maximum bei 200.000 Zeichen, von denen nicht mehr als 100.000 fakturierte Zeichen sein können. SSML-Tags werden nicht als berechnete Zeichen gezählt.

HTTP-Statuscode: 400

Weitere Informationen finden Sie unter:

Weitere Informationen zur Verwendung dieser API in einer der sprachspezifischen Sprachen finden Sie im AWS SDKs Folgenden:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

StartSpeechSynthesisTask

Datentypen