生成語音 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

生成語音

Amazon Polly 的生成 text-to-speech(TTS) 引擎提供最人性化、情感參與和適應性對話語音,可透過 Amazon Polly 主控台使用。

生成引擎是迄今為止最大的 Amazon Polly TTS模型。它會部署十億參數轉換器,將原始文字轉換為語音程式碼,然後部署以卷積為基礎的解碼器,以增量、可串流的方式將這些語音程式碼轉換為波形。此方法顯示大型語言模型 (LLMs) 在訓練增加公開可用和專有資料量時廣泛報告的緊急功能,包括各種語音、語言和樣式。

生成型引擎會建立合成語音,以與人類語音非常相似的方式,產生情感參與、自信和高度交集。您可以使用這些語音做為知識淵博的客戶助理、虛擬訓練師,或具有近乎人類合成語音的廣告商。

注意

這些 state-of-the-art語音的基礎技術屬於語言和語音建模的生成 AI 範例。該技術的副作用是,訓練資料和模型的任何更新都可能導致聲音聲音的響度略有不同,即使整體品質隨著模型更新而有所改善。這可能會影響長時間合成不同內容部分的使用案例,例如 Podcast 的季節。

可用的生成語音

Amazon Polly 目前在生成變體中提供七個語音。這些生成語音也可以在對話NTTS變體中使用。

語言 語言代碼 名稱/ID Gender

1

英文 (澳洲)

en-AU

奧利維亞

女性

2

英文 (英國)

en-GB

Amy

女性

3

英文 (美國)

zh-TW

丹尼爾

女性

4

英文 (美國)

zh-TW

Joanna

女性

5

英文 (美國)

zh-TW

Matthew

男性

6

英文 (美國)

zh-TW

Ruth

女性

7

英文 (美國)

zh-TW

Stephen

男性

注意

生成語音成本在 Amazon Polly 定價資訊頁面上指定。

功能和區域相容性

Amazon Polly 生成語音可在下列區域使用:

  • 美國東部 (維吉尼亞北部):us-east-1

  • 歐洲 (法蘭克福):eu-central-1

  • 美國西部 (奧勒岡):us-west-2

  • 其他區域無法使用

生成語音支援下列功能:

  • 即時和非同步語音合成操作。

  • 生成引擎不支援 Newscaster 發言樣式。

  • Amazon Polly 支援許多 (但不是全部) SSML標籤。如需 NTTS支援SSML標籤的詳細資訊,請參閱支援的SSML標籤

  • 如同標準語音,您可以從各種取樣率中選擇,為您的應用程式最佳化頻寬和音訊品質。標準和神經語音的有效取樣率為 8kHz、16kHz、22 kHz或 24kHz。標準語音的預設值為 22 kHz。生成語音的預設值為 24 kHz。Amazon Polly 支援 MP3、 OGG(Vorbis) 和原始PCM音訊串流格式。

目前無法支援產生語音標記。

注意

在不太可能發生模型幻覺的情況下, (以及隨著生成引擎透過權杖轉譯語音字符的模型行為) 會建立強制的緊急停止機制。內建機制會阻止模型進一步轉譯語音。此安全功能是以資料分析為基礎,其中模型可能幻覺,通常是在句子結尾。

在某些情況下,模型可能會認為它會幻覺,然後最終可能會在生成步驟中剪斷一個單字,因此渲染一半的單字。這可能會導致不適當的結果。