Sintaxe da Solicitação Parâmetros da solicitação de URI Corpo da Solicitação Sintaxe da Resposta Elementos de Resposta Erros Consulte Também

SynthesizeSpeech

Sintetiza entrada UTF-8, texto sem formatação ou SSML em um fluxo de bytes. A entrada SSML deve ser válida e bem formada. Alguns alfabetos podem não estar disponíveis com todas as vozes (por exemplo, o cirílico pode não ser lido pelas vozes em inglês), a menos que o mapeamento de fonemas seja usado. Para obter mais informações, consulte Como funciona.

Sintaxe da Solicitação


POST /v1/speech HTTP/1.1
Content-type: application/json

{
   "Engine": "string",
   "LanguageCode": "string",
   "LexiconNames": [ "string" ],
   "OutputFormat": "string",
   "SampleRate": "string",
   "SpeechMarkTypes": [ "string" ],
   "Text": "string",
   "TextType": "string",
   "VoiceId": "string"
}

Parâmetros da solicitação de URI

A solicitação não usa nenhum parâmetro de URI.

Corpo da Solicitação

A solicitação aceita os dados a seguir no formato JSON.

Engine

Especifica o mecanismo (standard, neural, long-form ou generative) que o Amazon Polly usará ao processar texto de entrada para a síntese de fala. Forneça um mecanismo compatível com a voz selecionada. Se você não fornecer um mecanismo, será selecionado o mecanismo padrão. Se a voz escolhida não for compatível com o mecanismo padrão, ocorrerá um erro. Para obter informações sobre as vozes do Amazon Polly e quais estão disponíveis para cada mecanismo, consulte Vozes disponíveis.

Tipo: string

Valores válidos: standard | neural | long-form | generative

Obrigatório: Sim

Tipo: String

Valores Válidos: standard | neural | long-form | generative

Obrigatório: não

LanguageCode

Código de idioma opcional para a solicitação Synthesize Speech. É necessário apenas se estiver usando uma voz bilíngue, como Aditi, que pode ser usada para inglês indiano (en-IN) ou hindi (hi-IN).

Se uma voz bilíngue for usada e nenhum código de idioma for especificado, o Amazon Polly usará o idioma padrão da voz bilíngue. O idioma padrão para qualquer voz é aquele retornado pela DescribeVoicesoperação do LanguageCode parâmetro. Por exemplo, se nenhum código de idioma for especificado, Aditi usará inglês indiano em vez de hindi.

Tipo: string

Obrigatório: não

LexiconNames

Lista de um ou mais nomes de léxico de pronúncia que você deseja que o serviço aplique durante a síntese. O léxico só será aplicado ao texto se o idioma especificado nele for o mesmo que o da voz. Para obter informações sobre como armazenar léxicos, consulte. PutLexicon

Tipo: matriz de strings

Membros da matriz: número máximo de 5 itens.

Padrão: [0-9A-Za-z]{1,20}

Obrigatório: não

OutputFormat

O formato no qual a saída retornada será codificada. Para transmissão de áudio, será MP3, ogg_vorbis ou pcm. Marcas de fala serão JSON.

Quando o pcm for usado, o conteúdo retornado é áudio/pcm em formato little-endian assinado de 16 bits e 1 canal (mono).

Tipo: string

Valores Válidos: json | mp3 | ogg_vorbis | pcm

Obrigatório: sim

SampleRate

A frequência de áudio especificada em Hz.

Os valores válidos para MP3 e ogg_vorbis são 8000, 16000, 22050 e 24000. O valor padrão para vozes padrão é 22050. O valor padrão para vozes neurais é 24000. O valor padrão para vozes em formato longo é “24.000”. O valor padrão para vozes generativas é “24000”.

Os valores válidos para pcm são 8000 e 16000. O valor padrão é 16000.

Tipo: String

Obrigatório: Não

SpeechMarkTypes

Tipo de marcas de fala retornadas para o texto de entrada.

Tipo: matriz de strings

Membros da matriz: número máximo de 4 itens.

Valores Válidos: sentence | ssml | viseme | word

Obrigatório: não

Text

Insira texto para sintetizar. Se você especificar ssml como TextType, siga o formato SSML para o texto de entrada.

Tipo: string

Obrigatório: Sim

TextType

Especifica se o texto de entrada é simples ou SSML. O valor padrão é texto sem formatação. Para obter mais informações, consulte Using SSML.

Tipo: string

Valores Válidos: ssml | text

Obrigatório: não

VoiceId

ID de voz a ser usado para a síntese. Você pode obter uma lista das vozes disponíveis IDs ligando para a DescribeVoicesoperação.

Tipo: string

Exigido: Sim

Sintaxe da Resposta


HTTP/1.1 200
Content-Type: ContentType
x-amzn-RequestCharacters: RequestCharacters

AudioStream

Elementos de Resposta

Se a ação for bem-sucedida, o serviço retornará uma resposta HTTP 200.

A resposta retorna os cabeçalhos HTTP a seguir.

ContentType

Especifica o tipo de fluxo de áudio. Isso deve refletir o OutputFormat parâmetro em sua solicitação.

Se você solicitar mp3 como o OutputFormat, o ContentType retornado será áudio/mpeg.
Se você solicitar ogg_vorbis como o OutputFormat, o ContentType retornado será audio/ogg.
Se você solicitar pcm como o OutputFormat, o ContentType retornado será áudio/pcm em um formato little-endian assinado de 16 bits, 1 canal (mono).
Se você solicitar json como oOutputFormat, o ContentType retornado é application/x-json-stream.

RequestCharacters

Número de caracteres sintetizados.

A resposta retorna as informações a seguir como corpo HTTP.

AudioStream: Fluxo contendo a fala sintetizada.

Erros

EngineNotSupportedException

Esse mecanismo não é compatível com a voz que você designou. Escolha uma nova voz compatível com o mecanismo ou troque-o e reinicie a operação.

Código de status HTTP: 400

InvalidSampleRateException

A taxa de amostragem especificada é inválida.

Código de status HTTP: 400

InvalidSsmlException

O SSML fornecido é inválido. Verifique a sintaxe do SSML, a ortografia e valores das tags tente novamente.

Código de status HTTP: 400

LanguageNotSupportedException

O idioma especificado não é compatível com o Amazon Polly nessa capacidade.

Código de status HTTP: 400

LexiconNotFoundException

O Amazon Polly não encontrou o léxico especificado. Isso pode ser causado por um léxico inexistente, pelo nome escrito incorretamente ou pela especificação de um léxico que está em uma região diferente.

Verifique se o léxico existe, se está na região (consulte ListLexicons) e se o nome dele está escrito corretamente. Tente novamente.

Código de status HTTP: 404

MarksNotSupportedForFormatException

As marcas de fala não são compatíveis com o OutputFormat selecionado. As marcas de fala estão disponíveis apenas para conteúdo em formato json.

Código de status HTTP: 400

ServiceFailureException

Uma condição desconhecida causou uma falha no serviço.

Código de status HTTP: 500

SsmlMarksNotSupportedForTextTypeException

As marcas de fala SSML não são compatíveis com a entrada de texto sem formatação.

Código de status HTTP: 400

TextLengthExceededException

O valor do parâmetro Texto é maior que os limites aceitos. Para a API do SynthesizeSpeech, o limite para texto de entrada é de no máximo 6 mil caracteres, dos quais não mais do que 3 mil podem ser faturados. Para a API StartSpeechSynthesisTask, o máximo é de 200 mil caracteres, dos quais não mais do que 100 mil podem ser faturados. Tags SSML não são contadas como caracteres cobrados.

Código de Status HTTP: 400

Consulte Também

Para obter mais informações sobre como usar essa API em uma das linguagens específicas AWS SDKs, consulte o seguinte:

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

StartSpeechSynthesisTask

Tipos de dados