Transcripción de audio en streaming

Con el Amazon Transcribe streaming, puedes producir transcripciones en tiempo real para tu contenido multimedia. A diferencia de las transcripciones por lotes, que implican la carga de archivos multimedia, el contenido multimedia en streaming se entrega Amazon Transcribe en tiempo real. Amazon Transcribe luego devuelve una transcripción, también en tiempo real.

La transmisión puede incluir contenido multimedia pregrabado (películas, música y podcasts) y contenido multimedia en tiempo real (transmisiones de noticias en directo). Los casos de uso más comunes de la transmisión Amazon Transcribe incluyen los subtítulos opcionales en vivo para eventos deportivos y la supervisión en tiempo real del audio de los centros de llamadas.

El contenido en streaming se entrega como una serie de paquetes de datos secuenciales, o “fragmentos”, que Amazon Transcribe transcribe de forma instantánea. Las ventajas de utilizar la transmisión en streaming en lugar de por lotes incluyen las capacidades de conversión de voz a texto en tiempo real en sus aplicaciones y tiempos de transcripción más rápidos. Sin embargo, este aumento de velocidad puede presentar limitaciones de precisión en algunos casos.

Amazon Transcribe ofrece las siguientes opciones de transmisión:

Para transcribir la transmisión de audio en el Consola de administración de AWS, hable al micrófono de su ordenador.

sugerencia

Para ver ejemplos de código del SDK, consulta el repositorio de AWS muestras en GitHub.

Los formatos de audio compatibles con las transcripciones en streaming son:

FLAC
OPUS-encoded audio en un contenedor Ogg
PCM (sólo formatos de audio Little-Endian de 16 bits firmados, que no incluyan WAV)

Se recomiendan los formatos sin pérdidas (FLAC o PCM).

nota

Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la tabla de idiomas admitidos para obtener más información.

Para ver la disponibilidad Amazon Transcribe regional de las transcripciones de streaming, consulta: Amazon Transcribe Puntos finales y cuotas.

Prácticas recomendadas

Las siguientes recomendaciones mejoran la eficiencia de la transcripción en streaming:

Si es posible, usa PCM-encoded audio.
Asegúrese de que su secuencia esté lo más cerca posible al tiempo real.
La latencia depende del tamaño de los fragmentos de audio. Si puede especificar el tamaño de los fragmentos con su tipo de audio (por ejemplo, con el PCM), ajuste cada fragmento entre 50 ms y 200 ms. Puede calcular el tamaño del fragmento de audio mediante la siguiente fórmula:
```
chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
```
Use un tamaño de fragmento uniforme.
Asegúrese de especificar correctamente el número de canales de audio.
Con el audio PCM de un solo canal, cada muestra consta de dos bytes, por lo que cada fragmento debe constar de un número par de bytes.
Con el audio PCM de doble canal, cada muestra consta de cuatro bytes, por lo que cada fragmento debe ser un múltiplo de 4 bytes.
Cuando la secuencia de audio no contenga voz, codifique y envíe la misma cantidad de silencio. Por ejemplo, el silencio para PCM es una secuencia de cero bytes.
Asegúrese de especificar la frecuencia de muestreo correcta para el audio. Si es posible, grabe a una frecuencia de muestreo de 16 000 Hz; para proporcionar un mejor equilibrio entre la calidad y el volumen de datos enviados a través de la red. Tenga en cuenta que la mayoría de los micrófonos de gama alta graban a 44 100 Hz o 48 000 Hz.

Manejo de LimitExceededException errores

Como ocurre con cualquier sistema distribuido, Amazon Transcribe cuenta con mecanismos de protección que detectan el sobreconsumo de recursos y reaccionan en consecuencia. LimitExceededExceptionpueden producirse errores cuando se activa uno de estos mecanismos. Este error se debe a tres causas distintas:

Se ha superado la cuota de servicio de streaming simultáneo: Esta es la causa más común. Se produce cuando superas la cuota de servicio de streaming simultáneo. Para resolver este error, vuelve a intentarlo con un retroceso exponencial. Si siempre alcanzas este límite, solicita un aumento de la cuota de servicio a través de la consola Service Quotas. También puede ponerse en contacto con el AWS Support Center para obtener ayuda. Para obtener más información sobre las estrategias de reintento, consulta el artículo Comportamiento de los reintentos en la Guía de referencia de herramientas y AWS SDK.
Se ha superado la duración máxima de la sesión: Este error se produce cuando una transmisión supera la duración máxima permitida de la sesión. Se trata de un límite codificado que no se puede aumentar. Para continuar con la transcripción, inicia una nueva sesión de streaming.
El número de transmisiones simultáneas aumentó demasiado rápido: Se trata de una causa poco frecuente. Puede ocurrir si aumentas el número de transmisiones simultáneas demasiado rápido, por ejemplo, durante las pruebas de carga. Se trata de un mecanismo de protección a nivel de sistema sin cuota ajustable. Para resolver este error, vuelve a intentarlo con un retraso exponencial y aumenta gradualmente el número de transmisiones simultáneas. Para obtener más información sobre las estrategias de reintento, consulta el artículo Comportamiento de los reintentos en la AWS Guía de referencia de herramientas y SDK. También puedes visitar AWS Re:post o ponerte en contacto con Premium AWS Support.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Transcribir con HTTP o WebSockets

Streaming y resultados parciales