本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
語音標記輸出
Amazon Polly JSON 會在以行分隔的串流中傳回語音標記物件。語音標記物件包含下列欄位:
-
時間 – 從對應的音訊串流開始的時間戳記 (以毫秒為單位)
-
類型 – 語音標記的類型 (句子、單字、視覺效果或 ssml)
-
start – 輸入文字中物件開頭的位元組 (非字元) 偏移 (不包括視覺標記)
-
end – 輸入文字中物件結束的位元組 (而非字元) 偏移 (不包括視覺標記)
-
值 – 這會根據語音標記的類型而異
SSML:<mark> SSML標籤
視素:視素名稱
文字或句子:輸入文字的子字串,由開始和結束欄位分隔
例如,Amazon Polly 從「Mary 有一點小羊」文字產生下列word
語音標記物件:
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
所述文字 (「had」) 在音訊串流開始後 373 毫秒起始,並在輸入文字的位元組 5 開始位元組 8 結束。
注意
此中繼資料是用於 Joanna
voice-id。如果您使用另一個具相同輸入文字的語音,中繼資料可能不同。