选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

语音标记输出

聚焦模式
语音标记输出 - Amazon Polly

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Polly 将返回以换行符分隔的 JSON 流中的语音标记对象。语音标记对象包含以下字段:

  • time – 相应音频流开头的时间戳(以毫秒为单位)

  • type – 语音的类型(句子、单词、语音视位或 ssml 标记)。

  • start – 输入文本中对象开头的偏移量(以字节而不是字符为单位,不包括语音视位标记)

  • end – 输入文本中对象末尾的偏移量(以字节而不是字符为单位,不包括语音视位标记)

  • value – 根据语音标记类型变化

    • SSML:<mark> SSML 标签

    • viseme:语音视位名称

    • wordsentence:输入文本的子字符串,由开始和结束字段分隔

例如,Amazon Polly 从文本“Mary had a little lamb”(玛丽有一只小羊羔)生成以下 word 语音标记对象:

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

所描述的单词(“had”(具有))开始于音频流开始后 373 毫秒,并从输入文本的字节 5 处开始,在字节 8 处结束。

注意

此元数据用于 Joanna 语音 ID。如果您使用另一个有相同输入文本的声音,元数据可能有所不同。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。