语音标记输出

聚焦模式

语音标记输出 - Amazon Polly

Amazon Polly 将返回以换行符分隔的 JSON 流中的语音标记对象。语音标记对象包含以下字段：

time – 相应音频流开头的时间戳（以毫秒为单位）
type – 语音的类型（句子、单词、语音视位或 ssml 标记）。
start – 输入文本中对象开头的偏移量（以字节而不是字符为单位，不包括语音视位标记）
end – 输入文本中对象末尾的偏移量（以字节而不是字符为单位，不包括语音视位标记）
value – 根据语音标记类型变化
- SSML：<mark> SSML 标签
- viseme：语音视位名称
- word 或 sentence：输入文本的子字符串，由开始和结束字段分隔

例如，Amazon Polly 从文本“Mary had a little lamb”（玛丽有一只小羊羔）生成以下 word 语音标记对象：


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

所描述的单词（“had”（具有））开始于音频流开始后 373 毫秒，并从输入文本的字节 5 处开始，在字节 8 处结束。

此元数据用于 Joanna 语音 ID。如果您使用另一个有相同输入文本的声音，元数据可能有所不同。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

语音视位和 Amazon Polly

请求语音标记

选择您的 Cookie 首选项