Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon Polly restituisce gli oggetti di contrassegni vocali in un flusso JSON delimitato da righe. Un oggetto di contrassegno vocale contiene i seguenti campi:
-
time (tempo): il timestamp in millisecondi dall'inizio del flusso audio corrispondente
-
type (tipo): il tipo di contrassegno vocale (frase, parola, visema o ssml).
-
start (avvio): lo spostamento in byte (non caratteri) dell'inizio dell'oggetto nel testo di input (non include i contrassegni visema)
-
end (fine): lo spostamento in byte (non caratteri) della fine dell'oggetto nel testo di input (non include i contrassegni visema)
-
value (valore): questo varia a seconda del tipo di contrassegno vocale
SSML: tag SSML <mark>
viseme (visema): nome del visema
word (parola) o sentence (frase): una sottostringa del testo di input delimitata dai campi di inizio e fine
Ad esempio, Amazon Polly genera il seguente oggetto di contrassegno vocale word
dal testo "Mary had a little lamb":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
La parola descritta ("had") comincia 373 millisecondi dopo l'inizio del flusso audio, nonché inizia al byte 5 e finisce al byte 8 del testo di input.
Nota
Questi metadata sono relativi all'ID vocale Joanna
. Se utilizzi un'altra voce con lo stesso testo di input, i metadata possono variare.