Transcripción de audio en streaming - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Transcripción de audio en streaming

Con el Amazon Transcribe streaming, puedes producir transcripciones en tiempo real para tu contenido multimedia. A diferencia de las transcripciones por lotes, que implican la carga de archivos multimedia, el contenido multimedia en streaming se entrega Amazon Transcribe en tiempo real. Amazon Transcribe luego devuelve una transcripción, también en tiempo real.

La transmisión puede incluir contenido multimedia pregrabado (películas, música y podcasts) y contenido multimedia en tiempo real (transmisiones de noticias en directo). Los casos de uso más comunes de la transmisión Amazon Transcribe incluyen los subtítulos opcionales en vivo para eventos deportivos y la supervisión en tiempo real del audio de los centros de llamadas.

El contenido en streaming se entrega como una serie de paquetes de datos secuenciales, o “fragmentos”, que Amazon Transcribe transcribe de forma instantánea. Las ventajas de utilizar la transmisión en lugar de la transmisión por lotes incluyen speech-to-text capacidades en tiempo real en sus aplicaciones y tiempos de transcripción más rápidos. Sin embargo, este aumento de velocidad puede presentar limitaciones de precisión en algunos casos.

Amazon Transcribe ofrece las siguientes opciones de transmisión:

Para transcribir la transmisión de audio en el AWS Management Console, hable al micrófono de su ordenador.

sugerencia

Para ver ejemplos de código del SDK, consulta el repositorio de AWS muestras en GitHub.

Los formatos de audio compatibles con las transcripciones en streaming son:

  • FLAC

  • Audio codificado con OPUS en un contenedor Ogg

  • PCM (sólo formatos de audio Little-Endian de 16 bits firmados, que no incluyan WAV)

Se recomiendan los formatos sin pérdidas (FLAC o PCM).

nota

Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la tabla de idiomas admitidos para obtener más información.

Para ver la disponibilidad Amazon Transcribe regional de las transcripciones en streaming, consulta: Amazon Transcribe Puntos finales y cuotas.

Prácticas recomendadas

Las siguientes recomendaciones mejoran la eficiencia de la transcripción en streaming:

  • Si es posible, utilice audio codificado en PCM.

  • Asegúrese de que su secuencia esté lo más cerca posible al tiempo real.

  • La latencia depende del tamaño de los fragmentos de audio. Si puede especificar el tamaño de los fragmentos con su tipo de audio (por ejemplo, con el PCM), ajuste cada fragmento entre 50 ms y 200 ms. Puede calcular el tamaño del fragmento de audio mediante la siguiente fórmula:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Use un tamaño de fragmento uniforme.

  • Asegúrese de especificar correctamente el número de canales de audio.

  • Con el audio PCM de un solo canal, cada muestra consta de dos bytes, por lo que cada fragmento debe constar de un número par de bytes.

  • Con el audio PCM de doble canal, cada muestra consta de cuatro bytes, por lo que cada fragmento debe ser un múltiplo de 4 bytes.

  • Cuando la secuencia de audio no contenga voz, codifique y envíe la misma cantidad de silencio. Por ejemplo, el silencio para PCM es una secuencia de cero bytes.

  • Asegúrese de especificar la frecuencia de muestreo correcta para el audio. Si es posible, grabe a una frecuencia de muestreo de 16 000 Hz; para proporcionar un mejor equilibrio entre la calidad y el volumen de datos enviados a través de la red. Tenga en cuenta que la mayoría de los micrófonos de gama alta graban a 44 100 Hz o 48 000 Hz.