As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Vozes generativas
O mecanismo generative text-to-speech (TTS) do Amazon Polly oferece as vozes conversacionais mais humanas, emocionalmente engajadas e adaptáveis disponíveis para uso por meio do console Amazon Polly.
O Generative Engine é o maior modelo Amazon TTS Polly até hoje. Ele implanta um transformador de bilhões de parâmetros que converte texto bruto em códigos de fala, seguido por um decodificador baseado em convolução que converte esses códigos de fala em formas de onda de maneira incremental e transmissível. Esse método mostra as habilidades emergentes amplamente relatadas dos Large Language Models (LLMs) quando treinados em volumes crescentes de dados proprietários e disponíveis publicamente, abrangendo uma variedade de vozes, idiomas e estilos.
O mecanismo generativo cria uma fala sintética que é emocional, assertiva e altamente coloquial de uma maneira consideravelmente semelhante a uma voz humana. Você pode usar essas vozes como um experiente assistente para os clientes, treinador virtual ou anunciante com um discurso sintético quase humano.
nota
A state-of-the-art tecnologia subjacente a essas vozes se enquadra no paradigma da IA generativa para modelagem de linguagem e voz. Um efeito colateral da tecnologia é que qualquer atualização nos dados de treinamento e no modelo pode resultar em pequenas variações na forma como as vozes soam, mesmo no caso de sua qualidade geral melhorar com as atualizações do modelo. Isso pode ter um impacto nos casos de uso em que diferentes partes do conteúdo são sintetizadas por um longo período, por exemplo, uma temporada de podcasts.
Vozes generativas disponíveis
Atualmente, o Amazon Polly oferece 20 vozes em uma variante generativa. Essas vozes generativas também estão disponíveis em uma variante conversacionalNTTS.
Idioma | Código do idioma | Nome/ID | Gender | |
---|---|---|---|---|
1 |
Inglês (australiano) |
en-AU |
Olivia |
Feminino |
2 |
Inglês (indiano) |
en-IN |
Kajal |
Feminino |
3 |
Inglês (Reino Unido) |
en-GB |
Amy |
Feminino |
4 |
Inglês (EUA) |
en-US |
Danielle |
Feminino |
5 |
Inglês (EUA) |
en-US |
Joanna |
Feminino |
6 |
Inglês (EUA) |
en-US |
Matthew |
Masculino |
7 |
Inglês (EUA) |
en-US |
Ruth |
Feminino |
8 |
Inglês (EUA) |
en-US |
Stephen |
Masculino |
9 |
Inglês (sul-africano) |
en-ZA |
Ayanda |
Feminino |
10 |
Francês (França) |
fr-FR |
Léa |
Feminino |
11 |
Francês (França) |
fr-FR |
Rémi |
Masculino |
12 |
Espanhol (Espanha) |
es-ES |
Lúcia |
Feminino |
13 |
Espanhol (Espanha) |
es-ES |
Sergio |
Masculino |
14 |
Espanhol (mexicano) |
es-MX |
Mia |
Feminino |
15 |
Espanhol (mexicano) |
es-MX |
Andrés |
Masculino |
16 |
Espanhol (EUA) |
es-US |
Lupe |
Feminino |
17 |
Espanhol (EUA) |
es-US |
Pedro |
Masculino |
18 |
Alemão (Alemanha) |
de-DE |
Vicki |
Feminino |
19 |
Alemão (Alemanha) |
de-DE |
Daniel |
Masculino |
20 |
Italiano (Itália) |
it-IT |
Bianca |
Feminino |
nota
O custo das vozes generativas é especificado na página de informações sobre preços do Amazon Polly
Compatibilidade de recursos e regiões
As vozes generativas do Amazon Polly estão disponíveis nas seguintes regiões:
-
Leste dos EUA (Norte da Virgínia): us-east-1
-
Europa (Frankfurt): eu-central-1
-
Oeste dos EUA (Oregon): us-west-2
-
Outras regiões não estão disponíveis
Os seguintes recursos são compatíveis com as vozes generativas:
-
Operações de síntese de fala em tempo real e assíncrona.
-
O estilo de fala de âncora não é compatível com o mecanismo Generativo.
-
Muitas SSML tags (mas não todas) são suportadas pelo Amazon Polly. Para obter mais informações sobre SSML tags NTTS suportadas, consulte Tags suportadas SSML
-
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão e neurais são 8 kHzkHz, 16kHz, 22 ou 24kHz. O padrão para vozes padrão é 22kHz. O padrão para vozes generativas é 24kHz. O Amazon Polly oferece suporte MP3 a formatos OGG (Vorbis) e de streaming de PCM áudio bruto.
Ainda não há suporte à geração de marcas de fala.
nota
Para o caso improvável de alucinação do modelo (e considerando o comportamento do modelo do mecanismo generativo de renderizar a fala token por token), há um mecanismo de parada de emergência imposta em vigor. O mecanismo integrado impede que o modelo continue a renderizar a fala. Esse recurso de segurança é baseado na análise de dados em que o modelo tem o potencial de alucinar, geralmente no final da frase.
Pode haver casos em que o modelo pensa que vai alucinar e acaba cortando uma palavra durante uma etapa de geração, renderizando assim metade da palavra. Isso pode gerar resultados inadequados.