神經語音

焦點模式

神經語音 - Amazon Polly

Amazon Polly 具有神經text-to-speech(NTTS) 引擎，可產生比標準語音更高品質的語音。標準 TTS 語音使用串連合成。標準引擎會串連錄製語音的音素，產生非常自然的音調合成語音。然而，語音中不可避免的變化以及用於分段波形的技術會限制語音品質。Amazon Polly NTTS 引擎不會使用標準串連合成來產生語音。它有兩個部分：

神經網路 — 將一系列音素（最基本的語言單位）轉換為一系列光譜圖。(Spectogram 是不同頻帶中能源等級的快照。)
vocoder — 將光譜圖轉換為幾乎連續的音訊訊號。

類神經 TTS 系統的第一個元件是序列對序列的模型。此模型不會只從對應的輸入建立其結果，也會考慮輸入元素序列如何共同運作。模型會選擇其輸出的光譜圖，以便其頻帶強調人類大腦在處理語音時使用的聲學特徵。

接著，此模型的輸出會傳遞至神經聲碼器。這會將光譜圖轉換為語音波形。在用於建置一般用途串連合成系統的大型資料集上進行訓練時，此sequence-to-sequence方法會產生更高品質、更自然的語音。

可用的神經語音

神經語音提供 36 種語言和語言變體。下表列出了這些語音。

	語言和語言變體	語言代碼	名稱/ID	Gender
1	阿拉伯文（海灣）	ar-AE	Hala Zayd	女性男性
2	比利時荷蘭文（瑞典文）	nl-BE	利薩	女性
3	加泰隆尼亞文	ca-ES	Arlet	女性
4	捷克文	cs-CZ	吉特卡	女性
5	中文（中文）	yue-CN	海津	女性
6	中文（國語）	cmn-CN	Zhiyu	女性
7	丹麥文	da-DK	Sofie	女性
8	荷蘭文	nl-NL	月亮花	女性
9	英文 (澳洲)	en-AU	奧利維亞	女性
10	英文 (英國)	en-GB	Amy* Emma Brian Arthur	女性女性男性男性
11	英文 (印度)	en-IN	卡加爾文	女性
12	英文（愛爾蘭）	en-IE	尼安斯	女性
13	英文（紐西蘭）	en-NZ	Aria	女性
14	英文（新加坡）	en-SG	茉莉花	女性
15	英文（南非）	en-ZA	Ayanda	女性
16	英文 (美國)	zh-TW	丹尼爾文 Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	女性男性女性（子）女性女性女性女性男性男性 (兒童) 男性 (兒童) 男性女性男性
17	芬蘭文	FI	Suvi	女性
18	法文（比利時）	fr-BE	伊薩布爾	女性
19	法文 (加拿大)	fr-CA	加布里爾 Liam	女性男性
20	法文	fr-FR	Léa Rémi	女性男性
21	德文	de-DE	Vicki 丹尼爾	女性男性
22	德文（奧地利）	de-AT	漢納	女性
23	德文（瑞士）	de-CH	薩布林納	女性
24	印地文	hi-IN	卡加爾文	女性
25	義大利文	it-IT	Bianca Adriano	女性男性
26	日文	ja-JP	Takumi 卡茲哈 Tomoko	男性女性女性
27	韓文	ko-KR	Seoyeon Jihye	女性女性
28	挪威文	nb-NO	Ida	女性
29	波蘭文	pl-PL	奧拉	女性
30	葡萄牙文 (巴西)	pt-BR	Camila Vitória/Vitoria Thiago	女性女性男性
31	葡萄牙文 (歐洲)	pt-PT	Inês/Ines	女性
32	西班牙文（西班牙）	es-ES	Lucia 塞爾吉奧	女性男性
33	西班牙文（墨西哥）	es-MX	Mia 安德列	女性男性
34	西班牙文（美國）	es-US	Lupe* Pedro	女性男性
35	瑞典文	sv-SE	Elin	女性
36	土耳其文	tr-TR	爆量	女性

*Amy、Joanna、Lupe 和 Matthew 語音可與新聞播報員說話風格搭配使用。如需詳細資訊，請參閱套用新聞播報員語音。

功能和區域相容性

神經語音並非在所有 AWS 區域都可用，也不支援所有 Amazon Polly 功能。

下列區域支援神經語音：

美國東部 (維吉尼亞北部)：us-east-1
美國西部 (奧勒岡)：us-west-2
非洲（開普敦）：af-south-1
亞太區域（東京）：ap-northeast-1
亞太區域（首爾）：ap-northeast-2
亞太區域（大阪）：ap-northeast-3
亞太區域（孟買）：ap-south-1
亞太區域（新加坡）：ap-southeast-1
亞太區域 (雪梨)：ap-southeast-2
亞太區域（馬來西亞）：ap-southeast-5
加拿大（中部）：ca-central-1
歐洲（法蘭克福）：eu-central-1
歐洲（愛爾蘭）：eu-west-1
歐洲（倫敦）：eu-west-2
歐洲（巴黎）：eu-west-3
歐洲（西班牙）：eu-south-2
AWS GovCloud （美國西部）：us-gov-west-1

這些區域的端點和協定與用於標準語音的端點和協定相同。如需詳細資訊，請參閱 Amazon Polly 端點和配額。

神經語音支援以下功能：

即時和非同步語音合成操作。
新聞播報員風格。如需說話風格的詳細資訊，請參閱套用新聞播報員語音。
所有語音標記。
Amazon Polly 支援的許多（但不是全部） SSML 標籤。如需 NTTS 支援的 SSML 標籤的詳細資訊，請參閱支援的標籤。

如同標準語音，您可以從各種取樣率中選擇，為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8 kHz、16 kHz、22 kHz 或 24 kHz。標準語音的預設值為 22 kHz。神經語音的預設值為 24 kHz。Amazon Polly 支援 MP3、OGG (Vorbis) 和原始 PCM 音訊串流格式。