Uscita del contrassegno vocale

Amazon Polly restituisce gli oggetti di contrassegni vocali in un flusso JSON delimitato da righe. Un oggetto di contrassegno vocale contiene i seguenti campi:

time (tempo): il timestamp in millisecondi dall'inizio del flusso audio corrispondente
type (tipo): il tipo di contrassegno vocale (frase, parola, visema o ssml).
start (avvio): lo spostamento in byte (non caratteri) dell'inizio dell'oggetto nel testo di input (non include i contrassegni visema)
end (fine): lo spostamento in byte (non caratteri) della fine dell'oggetto nel testo di input (non include i contrassegni visema)
value (valore): questo varia a seconda del tipo di contrassegno vocale
- SSML: tag SSML <mark>
- viseme (visema): nome del visema
- word (parola) o sentence (frase): una sottostringa del testo di input delimitata dai campi di inizio e fine

Ad esempio, Amazon Polly genera il seguente oggetto di contrassegno vocale word dal testo "Mary had a little lamb":


{"time":373,"type":"word","start":5,"end":8,"value":"had"}

La parola descritta ("had") comincia 373 millisecondi dopo l'inizio del flusso audio, nonché inizia al byte 5 e finisce al byte 8 del testo di input.

Nota

Questi metadata sono relativi all'ID vocale Joanna. Se utilizzi un'altra voce con lo stesso testo di input, i metadata possono variare.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visemi e Amazon Polly

Richiesta di segni vocali