Transcripción de audio en streaming - Amazon Transcribe

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Transcripción de audio en streaming

Con el Amazon Transcribe streaming, puedes producir transcripciones en tiempo real para tu contenido multimedia. A diferencia de las transcripciones por lotes, que implican la carga de archivos multimedia, el contenido multimedia en streaming se entrega Amazon Transcribe en tiempo real. Amazon Transcribe a continuación, devuelve una transcripción, también en tiempo real.

La transmisión puede incluir contenido multimedia pregrabado (películas, música y podcasts) y contenido multimedia en tiempo real (transmisiones de noticias en directo). Los casos de uso más comunes de la transmisión Amazon Transcribe incluyen los subtítulos opcionales en vivo para eventos deportivos y la supervisión en tiempo real del audio de los centros de llamadas.

El contenido en streaming se entrega como una serie de paquetes de datos secuenciales, o “fragmentos”, que Amazon Transcribe transcribe de forma instantánea. Las ventajas de utilizar la transmisión en lugar de la transmisión por lotes incluyen speech-to-text capacidades en tiempo real en sus aplicaciones y tiempos de transcripción más rápidos. Sin embargo, este aumento de velocidad puede presentar limitaciones de precisión en algunos casos.

Amazon Transcribe ofrece las siguientes opciones de transmisión:

Para transcribir la transmisión de audio en el AWS Management Console, hable al micrófono de su ordenador.

sugerencia

Para SDK ver ejemplos de código, consulte el repositorio de AWS muestras en GitHub.

Los formatos de audio compatibles con las transcripciones en streaming son:

  • FLAC

  • OPUS-audio codificado en un contenedor Ogg

  • PCM(solo formatos de audio little-endian de 16 bits firmados, que no incluyen) WAV

Se recomiendan los formatos sin pérdidas (o). FLAC PCM

nota

Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la tabla de idiomas admitidos para obtener más información.

Para ver la disponibilidad Amazon Transcribe regional de las transcripciones de streaming, consulta: Puntos de conexión y cuotas Amazon Transcribe .

Prácticas recomendadas

Las siguientes recomendaciones mejoran la eficiencia de la transcripción en streaming:

  • Si es posible, usa audio PCM codificado.

  • Asegúrese de que su secuencia esté lo más cerca posible al tiempo real.

  • La latencia depende del tamaño de los fragmentos de audio. Si puedes especificar el tamaño del fragmento con tu tipo de audio (por ejemplo, conPCM), establece cada fragmento entre 50 ms y 200 ms. Puede calcular el tamaño del fragmento de audio mediante la siguiente fórmula:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Use un tamaño de fragmento uniforme.

  • Asegúrese de especificar correctamente el número de canales de audio.

  • Con el PCM audio de un solo canal, cada muestra consta de dos bytes, por lo que cada fragmento debe constar de un número par de bytes.

  • Con el PCM audio de doble canal, cada muestra consta de cuatro bytes, por lo que cada fragmento debe ser un múltiplo de 4 bytes.

  • Cuando la secuencia de audio no contenga voz, codifique y envíe la misma cantidad de silencio. Por ejemplo, silence for PCM es un flujo de cero bytes.

  • Asegúrese de especificar la frecuencia de muestreo correcta para el audio. Si es posible, grabe a una frecuencia de muestreo de 16 000 Hz; para proporcionar un mejor equilibrio entre la calidad y el volumen de datos enviados a través de la red. Tenga en cuenta que la mayoría de los micrófonos de gama alta graban a 44 100 Hz o 48 000 Hz.