本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
神經聲音
Amazon Polly 有一個神經 text-to-speech (NTTS)引擎,可以產生比其標準聲音更高質量的聲音。標準 TTS 語音使用串連合成。標準引擎連接錄製的語音的音素,產生非常自然的合成語音。然而,語音中不可避免的變化以及用於分段波形的技術會限制語音品質。Amazon Polly NTTS 引擎不使用標準串連合成來產生語音。它有兩個部分:
-
神經網絡 — 將一系列音素(最基本的語言單位)轉換為頻譜圖序列。(譜圖是不同頻段中能量水平的快照。)
-
聲碼器 — 將頻譜圖轉換為幾乎連續的音頻信號。
神經 TTS 系統的第一個組成部分是一個 sequence-to-sequence 模型。此模型不會只從對應的輸入建立其結果,也會考慮輸入元素序列如何共同運作。模型會選擇其輸出的光譜圖,以便其頻帶強調人類大腦在處理語音時使用的聲學特徵。
接著,此模型的輸出會傳遞至神經聲碼器。這會將光譜圖轉換為語音波形。當對用於構建通用串聯合成系統的大型數據集進行培訓時,這 sequence-to-sequence 種方法將產生更高質量,更自然的聲音。
可用的神經聲音
神經聲音有 33 種語言和語言版本。下表列出了這些語音。
|
語言和語言變體 | 語言代碼 | 名稱/ID | Gender |
---|---|---|---|---|
1 |
阿拉伯文 (灣) |
AR 自動曝光 |
哈拉 扎伊德 |
女性 男性 |
2 |
比利時荷蘭語(佛蘭芒語) |
NL |
麗莎 |
女性 |
3 |
加泰隆 |
社区-ES |
阿雷特 |
女性 |
4 |
中文 (廣東話) |
粵網 |
日神 |
女性 |
5 |
中文 (普通話) |
cmn-CN |
Zhiyu |
女性 |
6 |
丹麥文 |
da-DK |
蘇菲 |
女性 |
7 |
荷蘭文 |
nl-NL |
勞拉 |
女性 |
8 |
英文 (澳洲) |
en-AU |
奥莉維亞 |
女性 |
9 |
英文 (英國) |
en-GB |
阿米 * Emma Brian 亞瑟 |
女性 女性 男性 男性 |
10 |
英文 (印度) |
en-IN |
卡賈爾 |
女性 |
11 |
英語 (愛爾蘭語) |
EN-IE |
尼亞姆 |
女性 |
12 |
英文 (紐西蘭) |
恩紐西蘭 |
抒情調 |
女性 |
13 |
英文 (南非) |
恩扎 |
阿雅達 |
女性 |
14 |
英文 (美國) |
zh-TW |
丹妮爾 格雷戈里 Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* 露絲 史蒂芬 |
女性 男性 女性(兒童) 女性 女性 女性 女性 男性 男性 (兒童) 男性 (兒童) 男性 女性 男性 |
15 |
芬蘭文 |
Fi-Fi |
蘇維 |
女性 |
16 |
法語 (比利時) |
FR-BE |
伊莎貝爾 |
女性 |
17 |
法文 (加拿大) |
fr-CA |
加布里埃爾 利亞姆 |
女性 男性 |
18 |
法文 |
fr-FR |
Léa 雷米 |
女性 男性 |
19 |
德文 |
de-DE |
Vicki 丹尼爾 |
女性 男性 |
20 |
德語(奧地利語) |
德 |
漢娜 |
女性 |
21 |
印地語 |
hi-IN |
卡賈爾 |
女性 |
22 |
義大利文 |
it-IT |
Bianca 阿德里亚诺 |
女性 男性 |
23 |
日文 |
ja-JP |
Takumi 和叶 智子 |
男性 女性 女性 |
24 |
韓文 |
ko-KR |
Seoyeon |
女性 |
25 |
挪威文 |
nb-NO |
伊達 |
女性 |
26 |
波蘭文 |
pl-PL |
奧拉 |
女性 |
27 |
葡萄牙文 (巴西) |
pt-BR |
Camila Vitória/Vitoria 蒂亞戈 |
女性 女性 男性 |
28 |
葡萄牙文 (歐洲) |
pt-PT |
Inês/Ines |
女性 |
29 |
西班牙文 (歐洲) |
es-ES |
Lucia 塞爾吉奧 |
女性 男性 |
30 |
西班牙文 (墨西哥) |
es-MX |
Mia 安德烈斯 |
女性 男性 |
31 |
西班牙文 (美國) |
es-US |
Lupe* 佩德羅 |
女性 男性 |
32 |
瑞典文 |
sv-SE |
艾琳 |
女性 |
33 |
土耳其文 |
tr-TR |
布爾庫 |
女性 |
* 艾米,喬安娜,盧佩和馬修聲音可以與新聞主播演講風格一起使用。如需詳細資訊,請參閱 新聞廣播員的聲音。
功能與區域相容性
並非所有 AWS 區域都提供神經聲音,也不支援所有 Amazon Polly 功能。
以下區域支援神經語音 :
-
美國東部 (維吉尼亞北部):us-east-1
-
美國西部 (奧勒岡):us-west-2
-
非洲(開普敦):af-south-1
-
亞太區域(東京):ap-northeast-1
-
亞太區域 (首爾): ap-northeast-2
-
亞太區域(大阪):ap-northeast-3
-
亞太區域 (孟買):位於 ap-south-1
-
亞太區域 (新加坡): ap-southeast-1
-
亞太區域 (雪梨):ap-southeast-2
-
加拿大(中部):ca-central-1
-
歐洲(法蘭克福):eu-central-1
-
歐洲(愛爾蘭):eu-west-1
-
歐洲(倫敦):eu-west-2
-
歐洲(巴黎):eu-west-3
-
AWS GovCloud (美國西部): -1 us-gov-west
這些區域的端點和協定與用於標準語音的端點和協定相同。如需詳細資訊,請參閱 Amazon Polly 端點和配額。
神經語音支援以下功能:
-
即時和非同步語音合成操作。
-
新聞播報員風格。如需說話型式的更多資訊,請參閱新聞廣播員的聲音。
-
所有語音標記。
-
Amazon Polly 支持的許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的標籤。
如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8 kHz、16 kHz、22 kHz 或 24 kHz。標準語音的預設值為 22 kHz。神經聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。
使用主機上的神經網路引擎
您可以訪問 Amazon Polly 神經聲音通過 Amazon Polly 控制台或. AWS CLI
使用主機上的神經網路引擎
-
打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/
. -
從主控台選擇神經網路引擎。
-
從語音下拉菜單中選擇所需的聲音。
-
使用您選擇的文本生成 TTS 音頻。