Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Transcrever streaming de áudio

Modo de foco
Transcrever streaming de áudio - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando o Amazon Transcribe streaming, você pode produzir transcrições em tempo real para seu conteúdo de mídia. Ao contrário das transcrições em lote, que envolvem o upload de arquivos de mídia, a mídia de streaming é entregue Amazon Transcribe em tempo real. Amazon Transcribe em seguida, retorna uma transcrição, também em tempo real.

O streaming pode incluir mídia pré-gravada (filmes, músicas e podcasts) e mídia em tempo real (transmissões de notícias ao vivo). Os casos de uso comuns de streaming Amazon Transcribe incluem legendas ocultas ao vivo para eventos esportivos e monitoramento em tempo real do áudio da central de atendimento.

O conteúdo de streaming é fornecido como uma série de pacotes de dados sequenciais ou “blocos” que o Amazon Transcribe transcreve instantaneamente. As vantagens de usar o streaming em lote incluem speech-to-text recursos em tempo real em seus aplicativos e tempos de transcrição mais rápidos. No entanto, essa maior velocidade pode ter limitações de precisão em alguns casos.

Amazon Transcribe oferece as seguintes opções para streaming:

Para transcrever o streaming de áudio no AWS Management Console, fale no microfone do computador.

dica

Para exemplos de código do SDK, consulte o repositório AWS Samples em. GitHub

Os formatos de áudio compatíveis para transcrições de streaming são:

  • FLAC

  • Áudio codificado em OPUS em um contêiner Ogg

  • PCM (somente formatos de áudio little-endian assinados de 16 bits, que não incluem WAV)

Formatos sem perdas (FLAC ou PCM) são recomendados.

nota

As transcrições de streaming não são compatíveis com todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas oferecidos para obter detalhes.

Para ver a disponibilidade da Amazon Transcribe região para transcrições de streaming, consulte: Amazon Transcribe Endpoints e cotas.

Práticas recomendadas

As recomendações a seguir melhoram a eficiência da transcrição de streaming:

  • Se possível, use áudio codificado em PCM.

  • Garanta que o streaming seja o mais próximo possível do tempo real.

  • A latência depende do tamanho dos fragmentos de áudio. Se você conseguir especificar o tamanho do fragmento com o tipo de áudio (como com o PCM), defina cada fragmento entre 50 ms e 200 ms. É possível calcular o tamanho do fragmento de áudio usando a seguinte fórmula:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • Use um tamanho de fragmento uniforme.

  • Especifique corretamente o número de canais de áudio.

  • Com o áudio PCM de canal único, cada amostra consiste em 2 bytes, portanto, cada bloco deve consistir em um número par de bytes.

  • Com o áudio PCM de canal duplo, cada amostra consiste em 4 bytes, portanto, cada bloco deve ser um múltiplo de 4 bytes.

  • Quando o streaming de áudio não contiver fala, codifique e envie a mesma quantidade de silêncio. Por exemplo, o silêncio para PCM é um streaming de zero bytes.

  • Especifique a taxa de amostragem correta para o áudio. Se possível, grave com uma taxa de amostragem de 16.000 Hz, que fornece a melhor conciliação entre qualidade e volume de dados enviados pela rede. Observe que a maioria dos microfones de última geração grava a 44.100 Hz ou 48.000 Hz.

Nesta página

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.