神經聲音 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

神經聲音

Amazon Polly 有一個神經 text-to-speech (NTTS)引擎,可以產生比其標準聲音更高質量的聲音。標準 TTS 語音使用串連合成。標準引擎連接錄製的語音的音素,產生非常自然的合成語音。然而,語音中不可避免的變化以及用於分段波形的技術會限制語音品質。Amazon Polly NTTS 引擎不使用標準串連合成來產生語音。它有兩個部分:

  • 神經網絡 — 將一系列音素(最基本的語言單位)轉換為頻譜圖序列。(譜圖是不同頻段中能量水平的快照。)

  • 聲碼器 — 將頻譜圖轉換為幾乎連續的音頻信號。

神經 TTS 系統的第一個組成部分是一個 sequence-to-sequence 模型。此模型不會只從對應的輸入建立其結果,也會考慮輸入元素序列如何共同運作。模型會選擇其輸出的光譜圖,以便其頻帶強調人類大腦在處理語音時使用的聲學特徵。

接著,此模型的輸出會傳遞至神經聲碼器。這會將光譜圖轉換為語音波形。當對用於構建通用串聯合成系統的大型數據集進行培訓時,這 sequence-to-sequence 種方法將產生更高質量,更自然的聲音。

可用的神經聲音

神經聲音有 33 種語言和語言版本。下表列出了這些語音。

語言和語言變體 語言代碼 名稱/ID Gender

1

阿拉伯文 (灣)

AR 自動曝光

哈拉

扎伊德

女性

男性

2

比利時荷蘭語(佛蘭芒語)

NL

麗莎

女性

3

加泰隆

社区-ES

阿雷特

女性

4

中文 (廣東話)

粵網

日神

女性

5

中文 (普通話)

cmn-CN

Zhiyu

女性

6

丹麥文

da-DK

蘇菲

女性

7

荷蘭文

nl-NL

勞拉

女性

8

英文 (澳洲)

en-AU

奥莉維亞

女性

9

英文 (英國)

en-GB

阿米 *

Emma

Brian

亞瑟

女性

女性

男性

男性

10

英文 (印度)

en-IN

卡賈爾

女性

11

英語 (愛爾蘭語)

EN-IE

尼亞姆

女性

12

英文 (紐西蘭)

恩紐西蘭

抒情調

女性

13

英文 (南非)

恩扎

阿雅達

女性

14

英文 (美國)

zh-TW

丹妮爾

格雷戈里

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

露絲

史蒂芬

女性

男性

女性(兒童)

女性

女性

女性

女性

男性

男性 (兒童)

男性 (兒童)

男性

女性

男性

15

芬蘭文

Fi-Fi

蘇維

女性

16

法語 (比利時)

FR-BE

伊莎貝爾

女性

17

法文 (加拿大)

fr-CA

加布里埃爾

利亞姆

女性

男性

18

法文

fr-FR

Léa

雷米

女性

男性

19

德文

de-DE

Vicki

丹尼爾

女性

男性

20

德語(奧地利語)

漢娜

女性

21

印地語

hi-IN

卡賈爾

女性

22

義大利文

it-IT

Bianca

阿德里亚诺

女性

男性

23

日文

ja-JP

Takumi

和叶

智子

男性

女性

女性

24

韓文

ko-KR

Seoyeon

女性

25

挪威文

nb-NO

伊達

女性

26

波蘭文

pl-PL

奧拉

女性

27

葡萄牙文 (巴西)

pt-BR

Camila

Vitória/Vitoria

蒂亞戈

女性

女性

男性

28

葡萄牙文 (歐洲)

pt-PT

Inês/Ines

女性

29

西班牙文 (歐洲)

es-ES

Lucia

塞爾吉奧

女性

男性

30

西班牙文 (墨西哥)

es-MX

Mia

安德烈斯

女性

男性

31

西班牙文 (美國)

es-US

Lupe*

佩德羅

女性

男性

32

瑞典文

sv-SE

艾琳

女性

33

土耳其文

tr-TR

布爾庫

女性

* 艾米,喬安娜,盧佩和馬修聲音可以與新聞主播演講風格一起使用。如需詳細資訊,請參閱 新聞廣播員的聲音

功能與區域相容性

並非所有 AWS 區域都提供神經聲音,也不支援所有 Amazon Polly 功能。

以下區域支援神經語音 :

  • 美國東部 (維吉尼亞北部):us-east-1

  • 美國西部 (奧勒岡):us-west-2

  • 非洲(開普敦):af-south-1

  • 亞太區域(東京):ap-northeast-1

  • 亞太區域 (首爾): ap-northeast-2

  • 亞太區域(大阪):ap-northeast-3

  • 亞太區域 (孟買):位於 ap-south-1

  • 亞太區域 (新加坡): ap-southeast-1

  • 亞太區域 (雪梨):ap-southeast-2

  • 加拿大(中部):ca-central-1

  • 歐洲(法蘭克福):eu-central-1

  • 歐洲(愛爾蘭):eu-west-1

  • 歐洲(倫敦):eu-west-2

  • 歐洲(巴黎):eu-west-3

  • AWS GovCloud (美國西部): -1 us-gov-west

這些區域的端點和協定與用於標準語音的端點和協定相同。如需詳細資訊,請參閱 Amazon Polly 端點和配額

神經語音支援以下功能:

  • 即時和非同步語音合成操作。

  • 新聞播報員風格。如需說話型式的更多資訊,請參閱新聞廣播員的聲音

  • 所有語音標記。

  • Amazon Polly 支持的許多(但不是全部)SSML 標籤。如需 NTTS 支援 SSML 標籤的詳細資訊,請參閱支援的標籤。

如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8 kHz、16 kHz、22 kHz 或 24 kHz。標準語音的預設值為 22 kHz。神經聲音的預設值為 24 kHz。Amazon Polly 支持 MP3,OGG(波比斯)和原始 PCM 音頻流格式。

使用主機上的神經網路引擎

您可以訪問 Amazon Polly 神經聲音通過 Amazon Polly 控制台或. AWS CLI

使用主機上的神經網路引擎
  1. 打開 Amazon Polly 控制台在 https://console.aws.amazon.com/polly/.

  2. 從主控台選擇神經網路引擎。

  3. 從語音下拉菜單中選擇所需的聲音。

  4. 使用您選擇的文本生成 TTS 音頻。