As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Vozes neurais
O Amazon Polly tem um mecanismo Neural text-to-speech (NTTS) que pode produzir vozes de qualidade ainda maior do que suas vozes padrão. TTSAs vozes padrão usam síntese concatenativa. O mecanismo padrão concatena fonemas da fala gravada, produzindo uma fala sintetizada com um som muito natural. No entanto, as variações inevitáveis na fala e as técnicas usadas para segmentar as formas de onda limitam a qualidade da fala. O NTTS mecanismo Amazon Polly não usa síntese concatenativa padrão para produzir fala. Ele tem duas partes:
-
Uma rede neural — que converte uma sequência de fonemas (as unidades mais básicas da linguagem) em uma sequência de espectrogramas. (Os espectogramas são imagens instantâneas dos níveis de energia em diferentes bandas de frequência.)
-
Um vocoder — que converte espectrogramas em um sinal de áudio quase contínuo.
O primeiro componente do TTS sistema neural é um sequence-to-sequence modelo. Esse modelo não cria seus resultados exclusivamente a partir da entrada correspondente, mas também considera como a sequência dos elementos da entrada funcionam em conjunto. O modelo escolhe os espectrogramas que ele gera para que suas faixas de frequência enfatizem os recursos acústicos que o cérebro humano usa ao processar a fala.
A saída desse modelo passa para um vocoder neural. Isso converte os espectrogramas em formas de onda de fala. Quando treinada nos grandes conjuntos de dados usados para criar sistemas de síntese concatenativa de uso geral, essa sequence-to-sequence abordagem produzirá vozes de maior qualidade e som mais natural.
Vozes neurais disponíveis
As vozes neurais estão disponíveis em 35 idiomas e variantes linguísticas. A tabela a seguir lista a vozes.
|
Idiomas e variantes linguísticas | Código do idioma | Nome/ID | Gender |
---|---|---|---|---|
1 |
Árabe (Golfo) |
ar-AE |
Hala Zayd |
Feminino Masculino |
2 |
Holandês belga (flamengo) |
nl-BE |
Lisa |
Feminino |
3 |
Catalão |
ca-ES |
Arlet |
Feminino |
4 |
Tcheco |
CS-CZ |
Jitka |
Feminino |
5 |
Chinês (cantonês) |
yue-CN |
Hiujin |
Feminino |
6 |
Chinês (mandarim) |
cmn-CN |
Zhiyu |
Feminino |
7 |
Dinamarquês |
da-DK |
Sofie |
Feminino |
8 |
Holandês |
nl-NL |
Laura |
Feminino |
9 |
Inglês (australiano) |
en-AU |
Olivia |
Feminino |
10 |
Inglês (britânico) |
en-GB |
Amy* Emma Brian Arthur |
Feminino Feminino Masculino Masculino |
11 |
Inglês (indiano) |
en-IN |
Kajal |
Feminino |
12 |
Inglês (irlandês) |
en-IE |
Niamh |
Feminino |
13 |
Inglês (neozelandês) |
en-NZ |
Aria |
Feminino |
14 |
Inglês (sul-africano) |
en-ZA |
Ayanda |
Feminino |
15 |
Inglês (EUA) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Feminino Masculino Feminino (infantil) Feminino Feminino Feminino Feminino Masculino Masculino (criança) Masculino (criança) Masculino Feminino Masculino |
16 |
Finlandês |
fi-FI |
Suvi |
Feminino |
17 |
Francês (belga) |
fr-BE |
Isabelle |
Feminino |
18 |
Francês (canadense) |
fr-CA |
Gabrielle Liam |
Feminino Masculino |
19 |
Francês |
fr-FR |
Léa Rémi |
Feminino Masculino |
20 |
Alemão |
de-DE |
Vicki Daniel |
Feminino Masculino |
21 |
Alemão (austríaco) |
de-AT |
Hannah |
Feminino |
22 |
Alemão (suíço) |
De-ch |
Sabrina |
Feminino |
23 |
Hindi |
hi-IN |
Kajal |
Feminino |
24 |
Italiano |
it-IT |
Bianca Adriano |
Feminino Masculino |
25 |
Japonês |
ja-JP |
Takumi Kazuha Tomoko |
Masculino Feminino Feminino |
26 |
Coreano |
ko-KR |
Seoyeon |
Feminino |
27 |
Norueguês |
nb-NO |
Ida |
Feminino |
28 |
Polonês |
pl-PL |
Ola |
Feminino |
29 |
Português (brasileiro) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Feminino Feminino Masculino |
30 |
Português (europeu) |
pt-PT |
Inês/Ines |
Feminino |
31 |
Espanhol (europeu) |
es-ES |
Lúcia Sergio |
Feminino Masculino |
32 |
Espanhol (mexicano) |
es-MX |
Mia Andrés |
Feminino Masculino |
33 |
Espanhol (EUA) |
es-US |
Lupe* Pedro |
Feminino Masculino |
34 |
Sueco |
sv-SE |
Elin |
Feminino |
35 |
Turco |
tr-TR |
Burcu |
Feminino |
*As vozes Amy, Joanna, Lupe e Matthew podem ser usadas com o estilo de fala de locutor. Para obter mais informações, consulte Aplicando a voz do apresentador.
Compatibilidade de recursos e regiões
As vozes neurais não estão disponíveis em todas as AWS regiões, nem oferecem suporte a todos os recursos do Amazon Polly.
As vozes neurais são suportadas nas seguintes regiões:
-
Leste dos EUA (Norte da Virgínia): us-east-1
-
Oeste dos EUA (Oregon): us-west-2
-
África (Cidade do Cabo): af-south-1
-
Ásia-Pacífico (Tóquio): ap-northeast-1
-
Ásia-Pacífico (Seul): ap-northeast-2
-
Ásia-Pacífico (Osaka): ap-northeast-3
-
Ásia-Pacífico (Mumbai): ap-south-1
-
Ásia-Pacífico (Singapura): ap-southeast-1
-
Ásia-Pacífico (Sydney): ap-southeast-2
-
Canadá (Central): ca-central-1
-
Europa (Frankfurt): eu-central-1
-
Europa (Irlanda): eu-west-1
-
Europa (Londres): eu-west-2
-
Europa (Paris): eu-west-3
-
AWS GovCloud (Oeste dos EUA): -1 us-gov-west
Os endpoints e protocolos para essas regiões são idênticos aos usados para vozes padrão. Para obter mais informações, consulte Endpoints e cotas do Amazon Polly.
Os seguintes recursos são compatíveis com vozes neurais:
-
Operações de síntese de fala em tempo real e assíncrona.
-
Estilo de locutor. Para mais informações sobre estilos de fala, consulte Aplicando a voz do apresentador.
-
Todas as marcas de fala.
-
Muitas (mas não todas) das SSML tags suportadas pelo Amazon Polly. Para obter mais informações sobre SSML tags NTTS suportadas, consulte Tags suportadas.
Assim como ocorre com vozes padrão, é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio para seu aplicativo. As taxas de amostragem válidas para vozes padrão e neurais são 8 kHzkHz, 16kHz, 22 ou 24kHz. O padrão para vozes padrão é 22kHz. O padrão para vozes neurais é 24kHz. O Amazon Polly oferece suporte MP3 a formatos OGG (Vorbis) e de streaming de PCM áudio bruto.