Syntaxe de la demande Paramètres de demande URI Corps de la demande Syntaxe de la réponse Eléments de réponse Erreurs Voir aussi

SynthesizeSpeech

Synthétise une entrée UTF-8, du texte brut ou SSML dans un flux d'octets. L'entrée SSML doit être un SSML valide et bien formé. Certains alphabets peuvent ne pas être disponibles avec toutes les voix (par exemple, le cyrillique peut ne pas être lu du tout par les voix anglaises) à moins que le mappage des phonèmes ne soit utilisé. Pour plus d'informations, consultez la section Fonctionnement.

Syntaxe de la demande


POST /v1/speech HTTP/1.1
Content-type: application/json

{
   "Engine": "string",
   "LanguageCode": "string",
   "LexiconNames": [ "string" ],
   "OutputFormat": "string",
   "SampleRate": "string",
   "SpeechMarkTypes": [ "string" ],
   "Text": "string",
   "TextType": "string",
   "VoiceId": "string"
}

Paramètres de demande URI

La demande n’utilise pas de paramètres URI.

Corps de la demande

Cette demande accepte les données suivantes au format JSON.

Engine

Spécifie le moteur (standard, neurallong-form, ougenerative) qu'Amazon Polly doit utiliser lors du traitement du texte d'entrée pour la synthèse vocale. Fournissez un moteur compatible avec la voix que vous sélectionnez. Si vous ne fournissez pas de moteur, le moteur standard est sélectionné par défaut. Si une voix choisie n'est pas prise en charge par le moteur standard, cela provoquera une erreur. Pour plus d'informations sur les voix Amazon Polly et sur les voix disponibles pour chaque moteur, consultez Available Voices.

Type : Chaîne

Valeurs valides : standard | neural | long-form | generative

Obligatoire : non

LanguageCode

Code de langue facultatif pour la demande Synthesize Speech. Cela n'est nécessaire que si vous utilisez une voix bilingue, telle que Aditi, qui peut être utilisée en anglais indien (en-in) ou en hindi (hi-in).

Si une voix bilingue est utilisée et qu'aucun code de langue n'est spécifié, Amazon Polly utilise la langue par défaut de la voix bilingue. La langue par défaut pour toute voix est celle renvoyée par l'DescribeVoicesopération du LanguageCode paramètre. Par exemple, si aucun code de langue n'est spécifié, Aditi utilisera l'anglais indien plutôt que l'hindi.

Type : Chaîne

Obligatoire : non

LexiconNames

Liste d'un ou de plusieurs noms de lexiques de prononciation que vous souhaitez que le service applique lors de la synthèse. Les lexiques ne sont appliqués que si la langue du lexique est la même que celle de la voix. Pour plus d'informations sur le stockage des lexiques, consultez PutLexicon.

Type : tableau de chaînes

Membres du tableau : Nombre maximum de 5 éléments.

Modèle : [0-9A-Za-z]{1,20}

Obligatoire : non

OutputFormat

Format dans lequel la sortie renvoyée sera codée. Pour le flux audio, il s'agira de mp3, ogg_vorbis, ogg_opus, mu-law, a-law ou pcm. Pour les marques vocales, il s'agira de json.

Lorsque pcm est utilisé, le contenu renvoyé est audio/pcm au format little-endian 16 bits, 1 canal (mono) signé.

Type : Chaîne

Obligatoire : oui

SampleRate

Fréquence audio spécifiée en Hz.

Les valeurs valides pour mp3 et ogg_vorbis sont « 8000 », « 16000 », « 22050 », « 24000 », « 44100 » et « 48000 ». La valeur par défaut pour les voix standard est « 22050 ». La valeur par défaut pour les voix neuronales est « 24 000 ». La valeur par défaut pour les voix longues est « 24 000 ». La valeur par défaut pour les voix génératives est « 24 000 ».

Les valeurs valides pour pcm sont « 8000 » et « 16000 ». La valeur par défaut est « 16000 ».

La valeur valide pour ogg_opus est « 48000 ».

La valeur valide pour mu-law et a-law est « 8000 ».

Type : chaîne

Obligatoire : non

SpeechMarkTypes

Type de marques vocales renvoyées pour le texte saisi.

Type : tableau de chaînes

Membres du tableau : nombre maximum de 4 éléments.

Valeurs valides : sentence | ssml | viseme | word

Obligatoire : non

Text

Entrez le texte à synthétiser. Si vous ssml le spécifiezTextType, suivez le format SSML pour le texte d'entrée.

Type : Chaîne

Obligatoire : oui

TextType

Spécifie si le texte d'entrée est du texte brut ou du SSML. La valeur par défaut est le texte brut. Pour plus d'informations, consultez Utilisation de SSML.

Type : Chaîne

Valeurs valides : ssml | text

Obligatoire : non

VoiceId

Identifiant vocal à utiliser pour la synthèse. Vous pouvez obtenir une liste des voix disponibles IDs en appelant l'DescribeVoicesopération.

Type : Chaîne

Obligatoire : oui

Syntaxe de la réponse


HTTP/1.1 200
Content-Type: ContentType
x-amzn-RequestCharacters: RequestCharacters

AudioStream

Eléments de réponse

Si l’action aboutit, le service renvoie une réponse HTTP 200.

La réponse renvoie les en-têtes HTTP suivants.

ContentType

Spécifie le type de flux audio. Cela doit refléter le OutputFormat paramètre de votre demande.

Si vous le demandezOutputFormat, mp3 le résultat est ContentType audio/mpeg.
Si vous le demandezOutputFormat, ogg_vorbis le résultat est ContentType audio/ogg.
Si vous le demandezOutputFormat, ogg_opus le résultat est ContentType audio/ogg.
Si vous pcm le demandezOutputFormat, le fichier ContentType renvoyé est audio/pcm au format little-endian 16 bits, 1 canal (mono) signé.
Si vous mu-law en faites la demandeOutputFormat, le ContentType retour est audio/mulaw.
Si vous a-law en faites la demandeOutputFormat, le ContentType retour est audio/alaw.
Si vous le demandez json en tant queOutputFormat, le ContentType retour est application/x-json-stream.

RequestCharacters

Nombre de caractères synthétisés.

La réponse renvoie ce qui suit en tant que corps HTTP.

AudioStream: Stream contenant le discours synthétisé.

Erreurs

EngineNotSupportedException

Ce moteur n'est pas compatible avec la voix que vous avez désignée. Choisissez une nouvelle voix compatible avec le moteur ou changez de moteur et relancez l'opération.

Code d’état HTTP : 400

InvalidSampleRateException

La fréquence d'échantillonnage spécifiée n'est pas valide.

Code d’état HTTP : 400

InvalidSsmlException

Le code SSML que vous avez fourni n'est pas valide. Vérifiez la syntaxe SSML, l'orthographe des balises et des valeurs, puis réessayez.

Code d’état HTTP : 400

LanguageNotSupportedException

La langue spécifiée n'est actuellement pas prise en charge par Amazon Polly à ce titre.

Code d’état HTTP : 400

LexiconNotFoundException

Amazon Polly ne trouve pas le lexique spécifié. Cela peut être dû à un lexique manquant, à une faute d'orthographe de son nom ou à la spécification d'un lexique situé dans une autre région.

Vérifiez que le lexique existe, qu'il se trouve dans la région (voirListLexicons) et que vous avez orthographié son nom correctement. Ensuite, réessayez.

Code d’état HTTP :404

MarksNotSupportedForFormatException

Les marques vocales ne sont pas prises en charge pour les OutputFormat éléments sélectionnés. Les marques vocales ne sont disponibles que pour le contenu au json format.

Code d’état HTTP : 400

ServiceFailureException

Une situation inconnue a provoqué une panne de service.

Code d’état HTTP : 500

SsmlMarksNotSupportedForTextTypeException

Les marques vocales SSML ne sont pas prises en charge pour la saisie de type texte brut.

Code d’état HTTP : 400

TextLengthExceededException

La valeur du paramètre « Texte » est supérieure aux limites acceptées. Pour l'SynthesizeSpeechAPI, la limite de saisie de texte est de 6 000 caractères au total, dont 3 000 caractères peuvent être facturés au maximum. Pour l'StartSpeechSynthesisTaskAPI, le maximum est de 200 000 caractères, dont 100 000 caractères peuvent être facturés au maximum. Les balises SSML ne sont pas considérées comme des caractères facturés.

Code d’état HTTP : 400

Voir aussi

Pour plus d'informations sur l'utilisation de cette API dans l'un des langages spécifiques AWS SDKs, consultez ce qui suit :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

StartSpeechSynthesisTask

Types de données