Vozes de formato longo disponíveis Compatibilidade de recursos e regiões

Vozes em formato longo

O Amazon Polly tem um mecanismo de formato longo que produz vozes humanas, altamente expressivas e emocionalmente adequadas. As vozes em formato longo são desenvolvidas para chamar a atenção dos ouvintes para conteúdos mais longos, como artigos de notícias, materiais de treinamento ou vídeos de marketing.

As vozes Amazon Polly Longform são desenvolvidas com uma tecnologia avançada de aprendizado profundo. TTS O modelo aprende a replicar fonemas, prosódia, entonação e outros aspectos fonéticos e acústicos da linguagem humana, resultando em uma saída de fala altamente natural.

O mecanismo de formato longo usa incorporações de texto para interpretar o significado de um texto. Usando incorporações de texto, o mecanismo de formato longo pode gerar a ênfase, as pausas e o tom corretos de uma voz natural. O resultado é uma voz que combina toda a gama de elementos emocionais presentes na comunicação humana. Isso inclui imitar a surpresa ou diferenciar o diálogo da narração. Juntos, isso cria um produto de fala premium que soa como um ser humano vivo.

nota

A state-of-the-art tecnologia subjacente a essas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto em casos de uso com diferentes partes de conteúdo sintetizadas por um longo período de tempo — por exemplo, uma temporada de podcasts.

Vozes de formato longo disponíveis

Atualmente, o Amazon Polly oferece duas vozes longas femininas e uma masculina en-US. Essas vozes de formato longo também estão disponíveis em uma variante conversacionalNTTS.

	Idioma	Código do idioma	Nome/ID	Gender
1	Inglês (EUA)	en-US	Danielle Gregory Ruth	Feminino Masculino Feminino

Idioma

Código do idioma

Nome/ID

Gender

Inglês (EUA)

en-US

Danielle

Gregory

Ruth

Feminino

Masculino

Feminino

Compatibilidade de recursos e regiões

As vozes de formato longo do Amazon Polly estão disponíveis nas seguintes regiões:

Leste dos EUA (Norte da Virgínia): us-east-1
Outras regiões não disponíveis

O mecanismo Amazon Polly Longform oferece suporte aos seguintes recursos:

Operações de síntese de fala em tempo real e assíncrona.
Todas as marcas de fala.
Muitas SSML tags (mas não todas) são suportadas pelo Amazon Polly. Para obter mais informações sobre SSML tags NTTS suportadas, consulte Tags suportadas SSML
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão, longas e neurais são: 8kHz, 16 kHzkHz, 22 ou 24. kHz O padrão para vozes padrão é 22kHz. O padrão para vozes neurais e de formato longo é 24kHz. O Amazon Polly oferece suporte MP3 a formatos OGG (Vorbis) e de streaming de PCM áudio bruto.

nota

O custo de vozes longas é especificado na página de informações de preços do Amazon Polly.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Motor generativo

Motor neural