选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

长篇语音

聚焦模式
长篇语音 - Amazon Polly

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Polly 有一个长篇引擎,可发出类似人类、极富表现力且情感丰富的语音。长篇语音旨在吸引听众关注较长内容,例如新闻文章、培训材料或营销视频。

Amazon Polly 长篇语音是使用前沿深度学习 TTS 技术开发而成。该模型学习复制人类语言的音素、韵律、语调以及其他语音和声学方面,从而产生高度自然的语音输出。

长篇引擎使用文本嵌入来解释文本的含义。长篇引擎使用文本嵌入后,可以产生自然语音的正确重点、停顿和语气。最后得到的语音能够结合人类交流中存在的各种情感元素。这包括模仿惊讶的对话或者将对话与叙事区分开来。这些结合在一起,便打造出听起来像真人一样的优质语音产品。

注意

这些声音背后的 state-of-the-art技术属于用于语言和语音建模的生成式人工智能的范式。这项技术的一个副作用是,对训练数据和模型的任何更新都可能会导致语音听起来略有不同,即使随着模型的更新,语音的整体质量有所提高,也是如此。这可能会影响由长期合成的不同内容部分组成的应用场景,例如一个季度的播客。

可用的长篇语音

Amazon Polly 目前提供四种 en-US 和两种 es-es 长篇声音。这两种语言都有女声和男声可供选择。英语长篇配音 Daniel、Gregory 和 Ruth 也有对话式 NTTS 变体可供选择。

语言 语言代码 名称/ID 性别

1

英语(美国)

en-US

Danielle

Gregory

Ruth

帕特里克

2

西班牙语(西班牙)

es-ES

阿尔巴

劳尔

特征和区域兼容性

Amazon Polly 长篇语音在以下区域可用:

  • 美国东部(弗吉尼亚北部):us-east-1

  • 其他区域不可用

Amazon Polly 长篇引擎支持以下特征:

  • 实时和异步语音合成操作。

  • 所有语音标记

  • Amazon Polly 支持许多(但不是所有)SSML 标签。有关 NTTS 支持的 SSML 标签的更多信息,请参阅支持的 SSML 标签

  • 与标准语音一样,您可以从各种采样率中进行选择,以优化应用程序的带宽和音频质量。标准、长篇和神经语音的有效采样率为 8 kHz、16 kHz、22 kHz 或 24 kHz。标准语音的默认值为 22 kHz。长篇和神经语音的默认值为 24 kHz。Amazon Polly 支持 MP3 OGG (Vorbis) 和原始 PCM 音频流格式。

注意

长篇语音费用在 Amazon Polly 定价信息页面上列示。

下一主题:

神经引擎

上一主题:

生成式引擎

本页内容

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。