本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
神經語音
Amazon Polly 具有神經 text-to-speech (NTTS) 引擎,可以產生比標準語音更高品質的語音。標準TTS語音使用串連合成。標準引擎會串連錄製語音的電話,產生非常自然的音調合成語音。然而,語音中不可避免的變化以及用於分段波形的技術會限制語音品質。Amazon Polly NTTS引擎不會使用標準串連合成來產生語音。它有兩個部分:
-
神經網路 — 將一系列電話 (最基本的語言單位) 轉換為一系列光譜圖 。(頻譜圖是不同頻帶中能量層級的快照。)
-
vocoder:將頻譜圖轉換為幾乎連續的音訊訊號。
神經TTS系統的第一個元件是 sequence-to-sequence模型。此模型不會只從對應的輸入建立其結果,也會考慮輸入元素序列如何共同運作。模型會選擇其輸出的光譜圖,以便其頻帶強調人類大腦在處理語音時使用的聲學特徵。
接著,此模型的輸出會傳遞至神經聲碼器。這會將光譜圖轉換為語音波形。在用於建置一般用途串連合成系統的大型資料集上進行訓練時,此 sequence-to-sequence方法將產生更高品質、更自然的聲音。
可用的神經語音
神經語音提供 35 種語言和語言變體。下表列出了這些語音。
|
語言和語言變體 | 語言代碼 | 名稱/ID | Gender |
---|---|---|---|---|
1 |
阿拉伯文 (海灣) |
ar-AE |
Hala Zayd |
女性 男性 |
2 |
比利時荷蘭文 (佛林) |
nl-BE |
Lisa |
女性 |
3 |
加泰隆尼亞文 |
ca-ES |
Arlet |
女性 |
4 |
捷克文 |
cs-CZ |
Jitka |
女性 |
5 |
中文 (廣東文) |
yue-CN |
海金 |
女性 |
6 |
中文 (中文) |
cmn-CN |
Zhiyu |
女性 |
7 |
丹麥文 |
da-DK |
Sofie |
女性 |
8 |
荷蘭文 |
nl-NL |
勞拉 |
女性 |
9 |
英文 (澳洲) |
en-AU |
奧利維亞 |
女性 |
10 |
英文 (英國) |
en-GB |
Amy* Emma Brian Arthur |
女性 女性 男性 男性 |
11 |
英文 (印度) |
en-IN |
卡加爾 |
女性 |
12 |
英文 (愛爾蘭) |
en-IE |
尼安 |
女性 |
13 |
英文 (紐西蘭) |
en-NZ |
Aria |
女性 |
14 |
英文 (南非) |
en-ZA |
Ayanda |
女性 |
15 |
英文 (美國) |
zh-TW |
丹尼爾 Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
女性 男性 女性 (子) 女性 女性 女性 女性 男性 男性 (兒童) 男性 (兒童) 男性 女性 男性 |
16 |
芬蘭文 |
FI |
Suvi |
女性 |
17 |
法文 (比利時) |
fr-BE |
Isabelle |
女性 |
18 |
法文 (加拿大) |
fr-CA |
加布里爾 Liam |
女性 男性 |
19 |
法文 |
fr-FR |
Léa Rémi |
女性 男性 |
20 |
德文 |
de-DE |
Vicki 丹尼爾 |
女性 男性 |
21 |
德文 (奧地利) |
de-AT |
漢納 |
女性 |
22 |
德文 (瑞士) |
de-CH |
薩布林納 |
女性 |
23 |
印地文 |
hi-IN |
卡加爾 |
女性 |
24 |
義大利文 |
it-IT |
Bianca Adriano |
女性 男性 |
25 |
日文 |
ja-JP |
Takumi Kazuha Tomoko |
男性 女性 女性 |
26 |
韓文 |
ko-KR |
Seoyeon |
女性 |
27 |
挪威文 |
nb-NO |
Ida |
女性 |
28 |
波蘭文 |
pl-PL |
奧拉 |
女性 |
29 |
葡萄牙文 (巴西) |
pt-BR |
Camila Vitória/Vitoria Thiago |
女性 女性 男性 |
30 |
葡萄牙文 (歐洲) |
pt-PT |
Inês/Ines |
女性 |
31 |
西班牙文 (歐洲) |
es-ES |
Lucia Sergio |
女性 男性 |
32 |
西班牙文 (墨西哥) |
es-MX |
Mia 安德烈斯 |
女性 男性 |
33 |
西班牙文 (美國) |
es-US |
Lupe* Pedro |
女性 男性 |
34 |
瑞典文 |
sv-SE |
Elin |
女性 |
35 |
土耳其文 |
tr-TR |
Burcu |
女性 |
*Amy、Joanna、Lupe 和 Matthew 語音可以與 Newscaster 發言樣式搭配使用。如需詳細資訊,請參閱套用新聞傳送器語音。
功能和區域相容性
神經語音並非在所有 AWS 區域都可用,也不支援所有 Amazon Polly 功能。
下列區域支援神經語音:
-
美國東部 (維吉尼亞北部):us-east-1
-
美國西部 (奧勒岡):us-west-2
-
非洲 (開普敦):af-south-1
-
亞太區域 (東京):ap-northeast-1
-
亞太區域 (首爾):ap-northeast-2
-
亞太區域 (大阪):ap-northeast-3
-
亞太區域 (孟買):ap-south-1
-
亞太區域 (新加坡):ap-southeast-1
-
亞太區域 (雪梨):ap-southeast-2
-
加拿大 (中部):ca-central-1
-
歐洲 (法蘭克福):eu-central-1
-
歐洲 (愛爾蘭):eu-west-1
-
歐洲 (倫敦):eu-west-2
-
歐洲 (巴黎):eu-west-3
-
AWS GovCloud (美國西部): us-gov-west-1
這些區域的端點和協定與用於標準語音的端點和協定相同。如需詳細資訊,請參閱 Amazon Polly 端點和配額 。
神經語音支援以下功能:
-
即時和非同步語音合成操作。
-
新聞播報員風格。如需發言樣式的詳細資訊,請參閱 套用新聞傳送器語音。
-
所有語音標記。
-
Amazon Polly 支援的許多 (但不是全部) SSML標籤。如需 NTTS支援SSML標籤的詳細資訊,請參閱支援的標籤。
如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8kHz、16kHz、22 kHz或 24kHz。標準語音的預設值為 22 kHz。神經語音的預設值為 24 kHz。Amazon Polly 支援 MP3、 OGG(Vorbis) 和原始PCM音訊串流格式。