As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Vozes em formato longo
O Amazon Polly tem um mecanismo de formato longo que produz vozes humanas, altamente expressivas e emocionalmente adequadas. As vozes em formato longo são desenvolvidas para chamar a atenção dos ouvintes para conteúdos mais longos, como artigos de notícias, materiais de treinamento ou vídeos de marketing.
As vozes Amazon Polly Longform são desenvolvidas com uma tecnologia avançada de aprendizado profundo. TTS O modelo aprende a replicar fonemas, prosódia, entonação e outros aspectos fonéticos e acústicos da linguagem humana, resultando em uma saída de fala altamente natural.
O mecanismo de formato longo usa incorporações de texto para interpretar o significado de um texto. Usando incorporações de texto, o mecanismo de formato longo pode gerar a ênfase, as pausas e o tom corretos de uma voz natural. O resultado é uma voz que combina toda a gama de elementos emocionais presentes na comunicação humana. Isso inclui imitar a surpresa ou diferenciar o diálogo da narração. Juntos, isso cria um produto de fala premium que soa como um ser humano vivo.
nota
A state-of-the-art tecnologia subjacente a essas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto em casos de uso com diferentes partes de conteúdo sintetizadas por um longo período de tempo — por exemplo, uma temporada de podcasts.
Vozes de formato longo disponíveis
Atualmente, o Amazon Polly oferece duas vozes longas femininas e uma masculina en-US. Essas vozes de formato longo também estão disponíveis em uma variante conversacionalNTTS.
Idioma | Código do idioma | Nome/ID | Gender | |
---|---|---|---|---|
1 |
Inglês (EUA) |
en-US |
Danielle Gregory Ruth |
Feminino Masculino Feminino |
Compatibilidade de recursos e regiões
As vozes de formato longo do Amazon Polly estão disponíveis nas seguintes regiões:
-
Leste dos EUA (Norte da Virgínia): us-east-1
-
Outras regiões não disponíveis
O mecanismo Amazon Polly Longform oferece suporte aos seguintes recursos:
-
Operações de síntese de fala em tempo real e assíncrona.
-
Todas as marcas de fala.
-
Muitas SSML tags (mas não todas) são suportadas pelo Amazon Polly. Para obter mais informações sobre SSML tags NTTS suportadas, consulte Tags suportadas SSML
-
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão, longas e neurais são: 8kHz, 16 kHzkHz, 22 ou 24. kHz O padrão para vozes padrão é 22kHz. O padrão para vozes neurais e de formato longo é 24kHz. O Amazon Polly oferece suporte MP3 a formatos OGG (Vorbis) e de streaming de PCM áudio bruto.
nota
O custo de vozes longas é especificado na página de informações de preços do Amazon Polly