語音標記輸出 - Amazon Polly

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

語音標記輸出

Amazon Polly JSON 會在以行分隔的串流中傳回語音標記物件。語音標記物件包含下列欄位:

  • 時間 – 從對應的音訊串流開始的時間戳記 (以毫秒為單位)

  • 類型 – 語音標記的類型 (句子、單字、視覺效果或 ssml)

  • start – 輸入文字中物件開頭的位元組 (非字元) 偏移 (不包括視覺標記)

  • end – 輸入文字中物件結束的位元組 (而非字元) 偏移 (不包括視覺標記)

  • – 這會根據語音標記的類型而異

    • SSML:<mark> SSML標籤

    • 視素:視素名稱

    • 文字句子:輸入文字的子字串,由開始和結束欄位分隔

例如,Amazon Polly 從「Mary 有一點小羊」文字產生下列word語音標記物件:

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

所述文字 (「had」) 在音訊串流開始後 373 毫秒起始,並在輸入文字的位元組 5 開始位元組 8 結束。

注意

此中繼資料是用於 Joannavoice-id。如果您使用另一個具相同輸入文字的語音,中繼資料可能不同。