神經語音 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

神經語音

Amazon Polly 具有神經 text-to-speech (NTTS) 引擎,可以產生比標準語音更高品質的語音。標準TTS語音使用串連合成。標準引擎會串連錄製語音的電話,產生非常自然的音調合成語音。然而,語音中不可避免的變化以及用於分段波形的技術會限制語音品質。Amazon Polly NTTS引擎不會使用標準串連合成來產生語音。它有兩個部分:

  • 神經網路 — 將一系列電話 (最基本的語言單位) 轉換為一系列光譜圖 。(頻譜圖是不同頻帶中能量層級的快照。)

  • vocoder:將頻譜圖轉換為幾乎連續的音訊訊號。

神經TTS系統的第一個元件是 sequence-to-sequence模型。此模型不會只從對應的輸入建立其結果,也會考慮輸入元素序列如何共同運作。模型會選擇其輸出的光譜圖,以便其頻帶強調人類大腦在處理語音時使用的聲學特徵。

接著,此模型的輸出會傳遞至神經聲碼器。這會將光譜圖轉換為語音波形。在用於建置一般用途串連合成系統的大型資料集上進行訓練時,此 sequence-to-sequence方法將產生更高品質、更自然的聲音。

可用的神經語音

神經語音提供 35 種語言和語言變體。下表列出了這些語音。

語言和語言變體 語言代碼 名稱/ID Gender

1

阿拉伯文 (海灣)

ar-AE

Hala

Zayd

女性

男性

2

比利時荷蘭文 (佛林)

nl-BE

Lisa

女性

3

加泰隆尼亞文

ca-ES

Arlet

女性

4

捷克文

cs-CZ

Jitka

女性

5

中文 (廣東文)

yue-CN

海金

女性

6

中文 (中文)

cmn-CN

Zhiyu

女性

7

丹麥文

da-DK

Sofie

女性

8

荷蘭文

nl-NL

勞拉

女性

9

英文 (澳洲)

en-AU

奧利維亞

女性

10

英文 (英國)

en-GB

Amy*

Emma

Brian

Arthur

女性

女性

男性

男性

11

英文 (印度)

en-IN

卡加爾

女性

12

英文 (愛爾蘭)

en-IE

尼安

女性

13

英文 (紐西蘭)

en-NZ

Aria

女性

14

英文 (南非)

en-ZA

Ayanda

女性

15

英文 (美國)

zh-TW

丹尼爾

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

女性

男性

女性 (子)

女性

女性

女性

女性

男性

男性 (兒童)

男性 (兒童)

男性

女性

男性

16

芬蘭文

FI

Suvi

女性

17

法文 (比利時)

fr-BE

Isabelle

女性

18

法文 (加拿大)

fr-CA

加布里爾

Liam

女性

男性

19

法文

fr-FR

Léa

Rémi

女性

男性

20

德文

de-DE

Vicki

丹尼爾

女性

男性

21

德文 (奧地利)

de-AT

漢納

女性

22

德文 (瑞士)

de-CH

薩布林納

女性

23

印地文

hi-IN

卡加爾

女性

24

義大利文

it-IT

Bianca

Adriano

女性

男性

25

日文

ja-JP

Takumi

Kazuha

Tomoko

男性

女性

女性

26

韓文

ko-KR

Seoyeon

女性

27

挪威文

nb-NO

Ida

女性

28

波蘭文

pl-PL

奧拉

女性

29

葡萄牙文 (巴西)

pt-BR

Camila

Vitória/Vitoria

Thiago

女性

女性

男性

30

葡萄牙文 (歐洲)

pt-PT

Inês/Ines

女性

31

西班牙文 (歐洲)

es-ES

Lucia

Sergio

女性

男性

32

西班牙文 (墨西哥)

es-MX

Mia

安德烈斯

女性

男性

33

西班牙文 (美國)

es-US

Lupe*

Pedro

女性

男性

34

瑞典文

sv-SE

Elin

女性

35

土耳其文

tr-TR

Burcu

女性

*Amy、Joanna、Lupe 和 Matthew 語音可以與 Newscaster 發言樣式搭配使用。如需詳細資訊,請參閱套用新聞傳送器語音

功能和區域相容性

神經語音並非在所有 AWS 區域都可用,也不支援所有 Amazon Polly 功能。

下列區域支援神經語音:

  • 美國東部 (維吉尼亞北部):us-east-1

  • 美國西部 (奧勒岡):us-west-2

  • 非洲 (開普敦):af-south-1

  • 亞太區域 (東京):ap-northeast-1

  • 亞太區域 (首爾):ap-northeast-2

  • 亞太區域 (大阪):ap-northeast-3

  • 亞太區域 (孟買):ap-south-1

  • 亞太區域 (新加坡):ap-southeast-1

  • 亞太區域 (雪梨):ap-southeast-2

  • 加拿大 (中部):ca-central-1

  • 歐洲 (法蘭克福):eu-central-1

  • 歐洲 (愛爾蘭):eu-west-1

  • 歐洲 (倫敦):eu-west-2

  • 歐洲 (巴黎):eu-west-3

  • AWS GovCloud (美國西部): us-gov-west-1

這些區域的端點和協定與用於標準語音的端點和協定相同。如需詳細資訊,請參閱 Amazon Polly 端點和配額

神經語音支援以下功能:

  • 即時和非同步語音合成操作。

  • 新聞播報員風格。如需發言樣式的詳細資訊,請參閱 套用新聞傳送器語音

  • 所有語音標記。

  • Amazon Polly 支援的許多 (但不是全部) SSML標籤。如需 NTTS支援SSML標籤的詳細資訊,請參閱支援的標籤。

如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8kHz、16kHz、22 kHz或 24kHz。標準語音的預設值為 22 kHz。神經語音的預設值為 24 kHz。Amazon Polly 支援 MP3、 OGG(Vorbis) 和原始PCM音訊串流格式。