Trascrizione dell'audio in streaming - Amazon Transcribe

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Trascrizione dell'audio in streaming

Utilizzando Amazon Transcribe lo streaming, puoi produrre trascrizioni in tempo reale per i tuoi contenuti multimediali. A differenza delle trascrizioni in batch, che prevedono il caricamento di file multimediali, i contenuti multimediali in streaming vengono forniti in tempo reale. Amazon Transcribe Amazon Transcribe restituisce quindi una trascrizione, anche in tempo reale.

Lo streaming può includere contenuti multimediali preregistrati (film, musica e podcast) e contenuti multimediali in tempo reale (trasmissioni di notizie in diretta). I casi d'uso più comuni dello streaming Amazon Transcribe includono i sottotitoli in diretta per eventi sportivi e il monitoraggio in tempo reale dell'audio dei call center.

I contenuti in streaming vengono forniti sotto forma di una serie di pacchetti di dati sequenziali, o “blocchi”, che Amazon Transcribe trascrive istantaneamente. I vantaggi dell'utilizzo dello streaming rispetto alla modalità batch includono speech-to-text funzionalità in tempo reale nelle applicazioni e tempi di trascrizione più rapidi. Tuttavia, questa maggiore velocità può avere limiti di precisione in alcuni casi.

Amazon Transcribe offre le seguenti opzioni per lo streaming:

Per trascrivere l'audio in streaming in AWS Management Console, parlate nel microfono del computer.

Suggerimento

Per esempi di SDK codice, consulta il repository AWS Samples su. GitHub

I formati audio supportati per le trascrizioni in streaming sono:

  • FLAC

  • OPUSaudio codificato in un contenitore Ogg

  • PCM(solo formati audio Little-endian firmati a 16 bit, che non includono) WAV

I formati Lossless (FLACo) sono consigliati. PCM

Nota

Le trascrizioni in streaming non sono supportate in tutte le lingue. Per i dettagli, consulta la colonna “Input di dati” nella tabella delle lingue supportate.

Per visualizzare la disponibilità Amazon Transcribe regionale per le trascrizioni in streaming, consulta: Amazon Transcribe Endpoints and Quotas.

Best practice

Le seguenti raccomandazioni migliorano l'efficienza della trascrizione in streaming:

  • Se possibile, usa l'audio con codifica. PCM

  • Assicurarsi che lo streaming sia il più vicino possibile al tempo reale.

  • La latenza dipende dalle dimensioni dei blocchi audio. Se riesci a specificare la dimensione del blocco con il tuo tipo di audio (ad esempio conPCM), imposta ogni blocco tra 50 ms e 200 ms. Puoi calcolare la dimensione del blocco audio con la seguente formula:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Usare una dimensione dei blocchi uniforme.

  • Assicurarsi di specificare correttamente il numero di canali audio.

  • Con l'PCMaudio a canale singolo, ogni campione è composto da due byte, quindi ogni blocco deve essere composto da un numero pari di byte.

  • Con l'PCMaudio a doppio canale, ogni campione è composto da quattro byte, quindi ogni blocco deve essere un multiplo di 4 byte.

  • Quando il flusso di audio non contiene voce, codificare e inviare la stessa quantità di silenzio. Ad esempio, silence for PCM è un flusso di zero byte.

  • Assicurarsi di specificare la frequenza di campionamento corretta per l'audio. Se possibile, registrare a una frequenza di campionamento di 16.000 Hz; ciò offrirà il miglior compromesso tra qualità e volume di dati inviati sulla rete. Tenere presente che la maggior parte dei microfoni di fascia alta registra a 44.100 Hz o 48.000 Hz.