神经语音

聚焦模式

神经语音 - Amazon Polly

Amazon Polly拥有神经网络 text-to-speech（NTTS）引擎，可以产生比标准语音更高质量的声音。标准 TTS 语音使用拼接合成。此标准引擎将记录的语音音素串联在一起，生成发音非常自然的合成语音。然而，语音中不可避免的语调变化和用于分割波形的技术限制了语音的质量。Amazon Polly NTTS 引擎不使用标准的拼接合成方法来生成语音。它具有两个部分：

一个神经网络 – 将音素序列（最基本的语言单元）转换为声谱图序列。（声谱图是不同频段内能量等级的快照。）
一种声码器 – 可将声谱图转换为近乎连续的音频信号。

神经 TTS 系统的第一个组成部分是 sequence-to-sequence模型。该模型不仅仅从相应的输入创建其结果，而且还考虑输入元素的序列如何配合使用。该模型选择它输出的声谱图，使其频带强调人脑在处理语音时使用的声学特征。

然后该模型的输出传递给神经声码器。声码器会将声谱图转换为语音波形。当在用于构建通用串联合成系统的大型数据集上训练时，这种 sequence-to-sequence方法将产生更高质量、听起来更自然的声音。

可用的神经语音

神经语音有 36 种语言和语言变体。下表列出了这些语音。

	语言和语言变体	语言代码	名称/ID	性别
1	阿拉伯语（海湾）	ar-AE	Hala Zayd	女男
2	比利时荷兰语（佛兰芒语）	nl-BE	Lisa	女
3	加泰罗尼亚语	ca-ES	Arlet	女
4	捷克语	cs-CZ	Jitka	女
5	中文（粤语）	yue-CN	Hiujin	女
6	中文（普通话）	cmn-CN	知语	女
7	丹麦语	da-DK	Sofie	女
8	荷兰语	nl-NL	Laura	女
9	英语（澳大利亚）	en-AU	Olivia	女
10	英语（英国）	en-GB	Amy* Emma Brian Arthur	女女男男
11	英语（印度）	en-IN	Kajal	女
12	英语（爱尔兰）	en-IE	Niamh	女
13	英语（新西兰）	en-NZ	Aria	女
14	英语（新加坡语）	en-sg	茉莉花	女
15	英语（南非）	en-ZA	Ayanda	女
16	英语（美国）	en-US	Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	女男女（孩童）女女女女男男（孩童）男（孩童）男女男
17	芬兰语	fi-FI	Suvi	女
18	法语（比利时）	fr-BE	Isabelle	女
19	法语（加拿大）	fr-CA	Gabrielle Liam	女男
20	法语	fr-FR	Léa Rémi	女男
21	德语	de-DE	Vicki Daniel	女男
22	德语（奥地利）	de-AT	Hannah	女
23	德语（瑞士）	de-CH	Sabrina	女
24	印地语	hi-IN	Kajal	女
25	意大利语	it-IT	Bianca Adriano	女男
26	日语	ja-JP	Takumi Kazuha Tomoko	男女女
27	韩语	ko-KR	Seoyeon Jihye	女女
28	挪威语	nb-NO	Ida	女
29	波兰语	pl-PL	Ola	女
30	葡萄牙语（巴西）	pt-BR	Camila Vitória/Vitoria Thiago	女女男
31	葡萄牙语（欧洲）	pt-PT	Inês/Ines	女
32	西班牙语（西班牙）	es-ES	Lucia Sergio	女男
33	西班牙语（墨西哥）	es-MX	Mia Andrés	女男
34	西班牙语（美国）	es-US	Lupe* Pedro	女男
35	瑞典语	sv-SE	Elin	女
36	土耳其语	tr-TR	Burcu	女

*Amy、Joanna、Lupe 和 Matthew 语音可使用播音讲话风格。有关更多信息，请参阅应用新闻播音员的语音。

特征和区域兼容性

神经语音并非在所有 AWS 地区都可用，也不支持 Amazon Polly 的所有功能。

以下区域支持神经语音：

美国东部（弗吉尼亚北部）：us-east-1
美国西部（俄勒冈）：us-west-2
非洲（开普敦）：af-south-1
亚太地区（东京）：ap-northeast-1
亚太地区（首尔）：ap-northeast-2
亚太地区（大阪）：ap-northeast-3
亚太地区（孟买）：ap-south-1
亚太地区（新加坡）：ap-southeast-1
亚太地区（悉尼）：ap-southeast-2
亚太地区（马来西亚）：ap-southeast-5
加拿大（中部）：ca-central-1
欧洲地区（法兰克福）：eu-central-1
欧洲地区（爱尔兰）：eu-west-1
欧洲地区（伦敦）：eu-west-2
欧洲地区（巴黎）：eu-west-3
欧洲（西班牙）：eu-south-2
AWS GovCloud （美国西部）： us-gov-west-1

这些区域的终端节点和协议与标准语音所用的相同。有关更多信息，请参阅 Amazon Polly 终端节点和配额。

神经语音支持以下功能：

实时和异步语音合成操作。
新闻播音员风格。有关讲话风格的更多信息，请参阅应用新闻播音员的语音。
所有语音标记。
大多（但不是所有）Amazon Polly 支持的 SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息，请参阅“支持的标签”。

与标准语音一样，您可以从各种采样率中进行选择，以优化应用程序的带宽和音频质量。标准和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。神经语音的默认值为 24kHz。Amazon Polly 支持 MP3 OGG (Vorbis) 和原始 PCM 音频流格式。