Transcrever streaming de áudio

Usando o Amazon Transcribe streaming, você pode produzir transcrições em tempo real para seu conteúdo de mídia. Ao contrário das transcrições em lote, que envolvem o upload de arquivos de mídia, a mídia de streaming é entregue Amazon Transcribe em tempo real. Amazon Transcribe em seguida, retorna uma transcrição, também em tempo real.

O streaming pode incluir mídia pré-gravada (filmes, músicas e podcasts) e mídia em tempo real (transmissões de notícias ao vivo). Os casos de uso comuns de streaming Amazon Transcribe incluem legendas ocultas ao vivo para eventos esportivos e monitoramento em tempo real do áudio da central de atendimento.

O conteúdo de streaming é fornecido como uma série de pacotes de dados sequenciais ou “blocos” que o Amazon Transcribe transcreve instantaneamente. As vantagens de usar streaming em vez de lote incluem recursos de conversão de fala em texto em tempo real nas aplicações e tempos de transcrição mais rápidos. No entanto, essa maior velocidade pode ter limitações de precisão em alguns casos.

Amazon Transcribe oferece as seguintes opções para streaming:

Para transcrever o streaming de áudio no Console de gerenciamento da AWS, fale no microfone do computador.

dica

Para exemplos de código do SDK, consulte o repositório AWS Samples em. GitHub

Os formatos de áudio compatíveis para transcrições de streaming são:

FLAC
OPUS-encoded áudio em um contêiner Ogg
PCM (somente formatos de áudio little-endian assinados de 16 bits, que não incluem WAV)

Formatos sem perdas (FLAC ou PCM) são recomendados.

nota

As transcrições de streaming não são compatíveis com todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas oferecidos para obter detalhes.

Para ver a disponibilidade da Amazon Transcribe região para transcrições de streaming, consulte: Amazon Transcribe Endpoints e cotas.

Práticas recomendadas

As recomendações a seguir melhoram a eficiência da transcrição de streaming:

Se possível, use PCM-encoded áudio.
Garanta que o streaming seja o mais próximo possível do tempo real.
A latência depende do tamanho dos fragmentos de áudio. Se você conseguir especificar o tamanho do fragmento com o tipo de áudio (como com o PCM), defina cada fragmento entre 50 ms e 200 ms. É possível calcular o tamanho do fragmento de áudio usando a seguinte fórmula:
```
chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
```
Use um tamanho de fragmento uniforme.
Especifique corretamente o número de canais de áudio.
Com o áudio PCM de canal único, cada amostra consiste em 2 bytes, portanto, cada bloco deve consistir em um número par de bytes.
Com o áudio PCM de canal duplo, cada amostra consiste em 4 bytes, portanto, cada bloco deve ser um múltiplo de 4 bytes.
Quando o streaming de áudio não contiver fala, codifique e envie a mesma quantidade de silêncio. Por exemplo, o silêncio para PCM é um streaming de zero bytes.
Especifique a taxa de amostragem correta para o áudio. Se possível, grave com uma taxa de amostragem de 16.000 Hz, que fornece a melhor conciliação entre qualidade e volume de dados enviados pela rede. Observe que a maioria dos microfones de última geração grava a 44.100 Hz ou 48.000 Hz.

Tratamento de LimitExceededException erros

Como acontece com qualquer sistema distribuído, Amazon Transcribe tem mecanismos de proteção que detectam o consumo excessivo de recursos e reagem de acordo. LimitExceededExceptionerros podem ocorrer quando um desses mecanismos é acionado. Há três causas distintas para esse erro:

A cota de serviço de streaming simultâneo foi excedida: Essa é a causa mais comum. Isso ocorre quando você excede sua cota de serviço de streaming simultâneo. Para resolver esse erro, tente novamente com o recuo exponencial. Se você atingir esse limite de forma consistente, solicite um aumento da cota de serviço por meio do console de Cotas de Serviço. Você também pode entrar em contato com o AWS Support Center para obter ajuda. Para obter mais informações sobre estratégias de repetição, consulte Comportamento de repetição no Guia de referência de AWS SDKs e ferramentas.
Duração máxima da sessão excedida: Esse erro ocorre quando um stream excede a duração máxima permitida da sessão. Esse limite é fixo e não pode ser alterado. Para continuar transcrevendo, inicie uma nova sessão de streaming.
O número de fluxos simultâneos aumentou muito rapidamente: Essa é uma causa rara. Isso pode ocorrer se você aumentar o número de fluxos simultâneos muito rapidamente, por exemplo, durante testes de carga. Esse é um mecanismo de proteção em nível de sistema sem cota ajustável. Para resolver esse erro, tente novamente com um recuo exponencial e aumente gradualmente o número de fluxos simultâneos. Para obter mais informações sobre estratégias de repetição, consulte Comportamento de repetição no Guia de referência de AWS SDKs e ferramentas. Você também pode visitar o AWS re:POST ou entrar em contato com o Premium AWS Support.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Transcrevendo com HTTP ou WebSockets

Streaming e resultados parciais