Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SynthesizeSpeech
Sintetizza input UTF-8, testo normale o SSML in un flusso di byte. L'input SSML deve essere valido e ben formato SSML. Alcuni alfabeti potrebbero non essere disponibili con tutte le voci (ad esempio, il cirillico potrebbe non essere letto affatto dalle voci inglesi) a meno che non venga utilizzata la mappatura dei fonemi. Per ulteriori informazioni, consulta How it Works (Come funziona).
Sintassi della richiesta
POST /v1/speech HTTP/1.1
Content-type: application/json
{
"Engine": "string
",
"LanguageCode": "string
",
"LexiconNames": [ "string
" ],
"OutputFormat": "string
",
"SampleRate": "string
",
"SpeechMarkTypes": [ "string
" ],
"Text": "string
",
"TextType": "string
",
"VoiceId": "string
"
}
Parametri della richiesta URI:
La richiesta non utilizza parametri URI.
Corpo della richiesta
La richiesta accetta i seguenti dati in formato JSON.
- Engine
-
Speciifica il motore (
standard
,neural
long-form
, ogenerative
) per Amazon Polly da utilizzare durante l'elaborazione del testo di input per la sintesi vocale. Fornisci un motore supportato dalla voce selezionata. Se non fornisci un motore, per impostazione predefinita viene selezionato il motore standard. Se una voce selezionata non è supportata dal motore standard, verrà generato un errore. Per informazioni sulle voci di Amazon Polly e sulle voci disponibili per ogni motore, consulta Available Voices.▬Tipo: stringa
Valori validi:
standard
|neural
|long-form
|generative
Campo obbligatorio: sì
Tipo: String
Valori validi:
standard | neural | long-form | generative
Campo obbligatorio: no
- LanguageCode
-
Codice della lingua facoltativo per la richiesta di sintesi vocale. Ciò è necessario solo se si utilizza una voce bilingue, come Aditi, che può essere utilizzata sia per l'inglese indiano (en-IN) che per l'hindi (hi-IN).
Se viene utilizzata una voce bilingue e non viene specificato alcun codice lingua, Amazon Polly utilizza la lingua predefinita della voce bilingue. La lingua predefinita per ogni voce è quella restituita dall'DescribeVoicesoperazione per il
LanguageCode
parametro. Ad esempio, se non viene specificato alcun codice di lingua, Aditi utilizzerà l'inglese indiano anziché l'hindi.▬Tipo: stringa
Valori validi:
arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS | en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT | ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR | en-NZ | en-ZA | ca-ES | de-AT | yue-CN | ar-AE | fi-FI | en-IE | nl-BE | fr-BE
Campo obbligatorio: no
- LexiconNames
-
Elenco di uno o più nomi di lessico di pronuncia che si desidera applicare il servizio durante la sintesi. I lessici vengono applicati solo se la lingua del lessico corrisponde alla lingua della voce. Per informazioni sulla memorizzazione dei lessici, vedere PutLexicon.
Tipo: matrice di stringhe
Membri della matrice: numero massimo di 5 elementi.
Modello:
[0-9A-Za-z]{1,20}
Campo obbligatorio: no
- OutputFormat
-
Il formato in cui verrà codificato l'output restituito. Per il flusso audio, questo sarà mp3, ogg_vorbis, o pcm. Per i segni vocali, questo sarà json.
Quando viene utilizzato pcm, il contenuto restituito è audio/pcm in un formato little-endian a un canale (mono) da 16 bit.
▬Tipo: stringa
Valori validi:
json | mp3 | ogg_vorbis | pcm
Campo obbligatorio: sì
- SampleRate
-
La frequenza audio specificata in Hz.
I valori validi per mp3 e ogg_vorbis sono "8000", "16000", "22050" e "24000". Il valore predefinito per le voci standard è "22050". Il valore predefinito per le voci neurali è "24000". Il valore predefinito per le voci lunghe è «24000". Il valore predefinito per le voci generative è «24000".
I valori validi per pcm sono "8000" e "16000". Il valore predefinito è "16000".
▬Tipo: stringa
Campo obbligatorio: no
- SpeechMarkTypes
-
Tipo di segni vocali restituiti per il testo di input.
Tipo: matrice di stringhe
Membri della matrice: numero massimo di 4 elementi.
Valori validi:
sentence | ssml | viseme | word
Campo obbligatorio: no
- Text
-
Inserisci testo da sintetizzare. Se si specifica
ssml
comeTextType
, seguire il formato SSML per il testo di input.Tipo: stringa
Campo obbligatorio: sì
- TextType
-
Specifica se il testo di input è testo normale o SSML. Il valore di default è testo normale. Per ulteriori informazioni, consulta Using SSML (Utilizzo di SSML).
▬Tipo: stringa
Valori validi:
ssml | text
Campo obbligatorio: no
- VoiceId
-
ID vocale da utilizzare per la sintesi. È possibile ottenere un elenco di ID vocali disponibili chiamando l'operazione. DescribeVoices
▬Tipo: stringa
Valori validi:
Aditi | Amy | Astrid | Bianca | Brian | Camila | Carla | Carmen | Celine | Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz | Gabrielle | Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna | Joey | Justin | Karl | Kendra | Kevin | Kimberly | Lea | Liv | Lotte | Lucia | Lupe | Mads | Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja | Nicole | Olivia | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon | Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu | Aria | Ayanda | Arlet | Hannah | Arthur | Daniel | Liam | Pedro | Kajal | Hiujin | Laura | Elin | Ida | Suvi | Ola | Hala | Andres | Sergio | Remi | Adriano | Thiago | Ruth | Stephen | Kazuha | Tomoko | Niamh | Sofie | Lisa | Isabelle | Zayd | Danielle | Gregory | Burcu
Campo obbligatorio: sì
Sintassi della risposta
HTTP/1.1 200
Content-Type: ContentType
x-amzn-RequestCharacters: RequestCharacters
AudioStream
Elementi di risposta
Se l'operazione riesce, il servizio restituisce una risposta HTTP 200.
La risposta restituisce le seguenti intestazioni HTTP.
- ContentType
-
Specifica il tipo di flusso audio. Questo dovrebbe riflettere il parametro
OutputFormat
nella richiesta.-
Se richiedi
mp3
comeOutputFormat
, ilContentType
restituito è audio/mpeg. -
Se richiedi
ogg_vorbis
comeOutputFormat
, ilContentType
restituito è audio/ogg. -
Se richiedi
pcm
comeOutputFormat
, ilContentType
restituito è audio/pcm in un formato little-endian a un canale (mono) da 16 bit. -
Se lo richiedi
json
comeOutputFormat
, il risultatoContentType
restituito è application/x-json-stream.
-
- RequestCharacters
-
Numero di caratteri sintetizzati.
La risposta restituisce quanto segue come corpo HTTP.
- AudioStream
-
Flusso contenente il discorso sintetizzato.
Errori
- EngineNotSupportedException
-
Questo motore non è compatibile con la voce designata. Scegli una nuova voce compatibile con il motore o cambia il motore e riavvia l'operazione.
Codice di stato HTTP: 400
- InvalidSampleRateException
-
La frequenza di campionamento specificata non è valida.
Codice di stato HTTP: 400
- InvalidSsmlException
-
L'SSML fornito non è valido. Verifica la sintassi SSML, l'ortografia dei tag e dei valori, quindi riprova.
Codice di stato HTTP: 400
- LanguageNotSupportedException
-
La lingua specificata non è attualmente supportata da Amazon Polly in questa capacità.
Codice di stato HTTP: 400
- LexiconNotFoundException
-
Amazon Polly non è in grado di individuare il lessico specificato. Ciò potrebbe essere causato da un lessico mancante, il suo nome è errato o specificando un lessico che si trova in una regione diversa.
Verificare che il lessico esista, sia nella regione (consulta ListLexicons) e che hai digitato il suo nome sia corretto. Allora try again.
Codice di stato HTTP: 404
- MarksNotSupportedForFormatException
-
I contrassegni vocali non sono supportati per
OutputFormat
selezionato. I contrassegni vocali sono disponibili solo per il contenuto in formatojson
.Codice di stato HTTP: 400
- ServiceFailureException
-
Una condizione sconosciuta ha causato un errore di servizio.
Codice di stato HTTP: 500
- SsmlMarksNotSupportedForTextTypeException
-
I contrassegni vocali SSML non sono supportati per l'input di tipo testo normale.
Codice di stato HTTP: 400
- TextLengthExceededException
-
Il valore del parametro "Testo" è più lungo dei limiti accettati. Per il API
SynthesizeSpeech
, il limite per il testo di input è un massimo di 6000 caratteri totali, di cui non più di 3000 caratteri possono essere fatturati. Per il APIStartSpeechSynthesisTask
, il massimo è 200.000 caratteri, di cui non più di 100.000 caratteri possono essere fatturati. I tag SSML non vengono conteggiati come caratteri fatturati.Codice di stato HTTP: 400
Vedi anche
Per ulteriori informazioni sull'utilizzo di questa API in uno degli AWS SDK specifici della lingua, consulta quanto segue: