Impostazione della durata massima per il parlato sintetizzato

Modalità Focus

Impostazione della durata massima per il parlato sintetizzato - Amazon Polly

<prosody amazon:max-duration>

Questo tag è attualmente supportato solo dal formato TTS standard.

Per controllare la durata di un discorso quando viene sintetizzato, utilizza il tag <prosody> con l'attributo amazon:max-duration.

La durata della sintesi vocale varia leggermente a seconda della voce selezionata. Potrebbe quindi essere difficile associare la sintesi vocale a grafica o altre attività che richiedono tempi precisi. Questo problema peggiora con le applicazioni di traduzione, perché il tempo necessario per pronunciare frasi specifiche può variare ampiamente con lingue diverse.

Il tag <prosody amazon:max-duration> associa la sintesi vocale alla quantità di tempo che desidera richiedere (la durata).

Questo tag utilizza la sintassi seguente:


<prosody amazon:max-duration="time duration">

Con il tag <prosody amazon:max-duration>, puoi specificare la durata in secondi o millisecondi:

ns: durata massima in secondi
nms: durata massima in millisecondi

Ad esempio, il seguente testo parlato ha una durata massima di 2 secondi:


<speak>
     <prosody amazon:max-duration="2s">
          Human speech is a powerful way to communicate. 
     </prosody>
</speak>

Il testo posizionato all'interno del tag non supera la durata specificata. Se la voce o la lingua scelta richiederebbe normalmente più tempo di tale durata, Amazon Polly accelera la sintesi vocale in modo che rientri nella durata specificata.

Se la durata specificata è superiore a quella richiesta per leggere il testo a una velocità normale, Amazon Polly legge la sintesi vocale normalmente. Non rallenta la sintesi vocale, né aggiunge silenzio, perciò l'audio risultante è più breve di quanto richiesto.

Nota

Amazon Polly aumenta la velocità non più di 5 volte rispetto alla velocità normale. Se il testo viene letto più velocemente, non è in genere comprensibile. Se una sintesi vocale non rientra nella durata specificata anche quando accelerata al massimo, l'audio sarà accelerato ma durerà più della durata specificata.

Puoi includere una sola frase o più frasi all'interno di un tag <prosody amazon:max-duration> e puoi utilizzare più tag <prosody amazon:max-duration> all'interno del testo.

Ad esempio:


<speak>
     <prosody amazon:max-duration="2400ms">
        Human speech is a powerful way to communicate.
     </prosody>
     <break strength="strong"/>
     <prosody amazon:max-duration="5100ms">
        Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
     </prosody>
     <break strength="strong"/>
     <prosody amazon:max-duration="8900ms">
        We naturally understand this information, which is why speech is ideal for creating applications where 
        a screen isn’t practical or possible, or simply isn’t convenient.
     </prosody>
</speak>

L'utilizzo del tag <prosody amazon:max-duration> è in grado di aumentare la latenza quando Amazon Polly restituisce una sintesi vocale. Il grado di latenza dipende dal passaggio e dalla relativa lunghezza. È consigliabile utilizzare testo costituito da passaggi di testo relativamente brevi.

Limitazioni

Non vi sono limitazioni nella modalità di utilizzo del tag <prosody amazon:max-duration> né su come funziona con altri tag SSML:

Il testo all'interno di un tag <prosody amazon:max-duration> non può superare il limite di 1.500 caratteri.

Non è possibile nidificare i tag <prosody amazon:max-duration>. Se hai inserito un tag <prosody amazon:max-duration> all'interno di un altro, Amazon Polly ignora il tag interno.

Ad esempio, nell'istruzione seguente, il tag <prosody amazon:max-duration="5s"> viene ignorato:


<speak>
     <prosody amazon:max-duration="16s">
          Human speech is a powerful way to communicate.
        
          <prosody amazon:max-duration="5s">
               Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
          </prosody>

          We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient.
     </prosody>
</speak>

Non è possibile utilizzare i tag <prosody> con l'attributo rate all'interno di un tag <prosody amazon:max-duration>. Questo perché entrambi hanno impatto sulla velocità a cui il testo viene pronunciato.

Nell'esempio seguente, Amazon Polly ignora il tag <prosody rate="2">:


<speak>
     <prosody amazon:max-duration="7500ms">
          Human speech is a powerful way to communicate.
      
          <prosody rate="2">
               Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
          </prosody>
     </prosody>
</speak>

Pause e max-duration

Quando utilizzi il tag max-duration, puoi comunque inserire pause all'interno del testo. Tuttavia, Amazon Polly include la lunghezza della pausa quando si calcola la durata massima per sintesi vocale. Inoltre, Amazon Polly conserva le brevi pause che si verificano laddove virgole e punti vengono posizionati all'interno di un passaggio e le include nella durata massima.

Ad esempio, nel blocco seguente, l'interruzione di 600 millisecondi e le interruzioni causate dalle virgole e i punti si verificano all'interno della sintesi vocale da 8 secondi:


<speak>
     <prosody amazon:max-duration="8s">
          Human speech is a powerful way to communicate.
          <break time="600ms"/>
          Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo.
     </prosody>
</speak>