翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Polly は、スピーチマークのオブジェクトを改行で区切られた JSON ストリームで返します。スピーチマークのオブジェクトには、次のフィールドが含まれます。
-
time (時間) – 対応する音声ストリームの開始からのタイムスタンプ (ミリ秒)。
-
type (種類) - スピーチマークの種類 (文、単語、ビゼーム、または ssml)
-
start (開始) - 入力テキストのオブジェクトの開始からのオフセット (文字ではなくバイト) (ビゼームマークを含まない)
-
end (終了) - 入力テキストのオブジェクトの終了のオフセット (文字ではなくバイト) (ビゼームマークを含まない)
-
value (値) - スピーチマークの種類によって異なります
SSML: <mark> SSML タグ
viseme: ビゼーム名
word または sentence: 入力テキストの部分文字列。開始および終了フィールドで区切られます
例えば、Amazon Polly では、「Mary had a little lamb」というテキストから、次の word
スピーチマークのオブジェクトを生成します。
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
記載された単語 (「had」) は、音声ストリーム開始後、373 ミリ秒後に開始して、入力テキストの 5 バイトめで開始し、8 バイトめで終了します。
注記
このメタデータは、Joanna
の voice-id に使用されます。同じ入力テキストの別の音声を使用する場合、メタデータは異なる場合があります。