Entrada e saída de dados - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entrada e saída de dados

Amazon Transcribe pega dados de áudio, como um arquivo de mídia em um Amazon S3 bucket ou stream de mídia, e os converte em dados de texto.

Se você estiver transcrevendo arquivos de mídia armazenados em um Amazon S3 bucket, você está realizando transcrições em lote. Se você estiver transcrevendo fluxos de mídia, isso significa que está realizando transcrições de streaming. Esses dois processos têm regras e requisitos diferentes.

Com transcrições em lote, você pode usar Fila de Job se não precisar processar todos os trabalhos de transcrição simultaneamente. Isso permite Amazon Transcribe acompanhar seus trabalhos de transcrição e processá-los quando houver vagas disponíveis.

nota

Amazon Transcribe pode armazenar temporariamente seu conteúdo para melhorar continuamente a qualidade de seus modelos de análise. Consulte o Amazon Transcribe FAQpara saber mais. Para solicitar a exclusão de conteúdo que possa ter sido armazenado por Amazon Transcribe, abra uma caixa com AWS Support.

Formatos de mídia

Os tipos de mídia compatíveis diferem entre transcrições em lote e transcrições de streaming, embora formatos sem perdas sejam recomendados para ambas. Consulte a seguinte tabela para obter detalhes:

Lote

Streaming

Formatos com compatibilidade

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCMcodificação

Formatos recomendados

  • FLAC

  • WAVcom PCM codificação de 16 bits

  • FLAC

  • PCMáudio little-endian assinado de 16 bits (observe que isso não inclui) WAV

Para obter melhores resultados, use um formato sem perdas, como FLAC ou WAV com codificação de PCM 16 bits.

nota

As transcrições de streaming não são compatíveis com todos os idiomas. Consulte a coluna “Entrada de dados” na tabela de idiomas oferecidos para obter detalhes.

Canais de áudio

Amazon Transcribe suporta mídia de canal único e canal duplo. No momento, não há suporte para mídia com mais de dois canais.

Se o áudio contiver vários locutores em um canal e você quiser particionar e rotular cada um na saída de transcrição, é possível usar a Separação de oradores (diarização).

Se o áudio contiver fala em dois canais separados, você pode usar a Identificação de canal para transcrever cada um separadamente na transcrição.

Ambas as opções produzem um arquivo de transcrição.

nota

Se você não habilitar a Separação de oradores ou a Identificação de canal, o texto da transcrição será fornecido como uma seção contínua.

Taxas de amostragem

Nos trabalhos de transcrição em lote, você pode optar por fornecer uma taxa de amostragem, embora esse parâmetro seja opcional. Se você incluí-lo na solicitação, o valor fornecido deverá corresponder à taxa de amostragem real no áudio. Se você fornecer uma taxa de amostragem que não corresponda ao áudio, seu trabalho poderá falhar.

Nas transcrições de streaming, você deve incluir uma taxa de amostragem na solicitação. Assim como nos trabalhos de transcrição em lote, o valor fornecido deve corresponder à taxa de amostragem real do áudio.

As taxas de amostragem para áudio de baixa fidelidade, como gravações telefônicas, normalmente usam 8.000 Hz. Para áudio de alta fidelidade, Amazon Transcribe suporta valores entre 16.000 Hz e 48.000 Hz.

Saída

A saída da transcrição está no JSON formato. A primeira parte da transcrição contém a própria transcrição em forma de parágrafo, seguida de dados adicionais para cada palavra e sinal de pontuação. Os dados fornecidos dependem dos recursos que você inclui na solicitação. No mínimo, a transcrição contém a hora de início, a hora de término e a pontuação de confiança de cada palavra. A seção a seguir mostra um exemplo de saída de uma solicitação de transcrição básica que não incluiu nenhuma opção ou recurso adicional.

Todas as transcrições em lote são armazenadas em Amazon S3 compartimentos. Você pode optar por salvar sua transcrição em seu próprio Amazon S3 bucket ou Amazon Transcribe usar um bucket padrão seguro. Para saber mais sobre como criar e usar buckets do Amazon S3 , consulte Trabalhar com buckets.

Se você quiser que sua transcrição seja armazenada em um Amazon S3 repositório de sua propriedade, especifique o intervalo URI na sua solicitação de transcrição. Certifique-se de conceder permissões de Amazon Transcribe gravação para esse bucket antes de iniciar seu trabalho de transcrição em lote. Se você especificar seu próprio bucket, a transcrição permanecerá nesse bucket até que você a remova.

Se você não especificar um Amazon S3 bucket, Amazon Transcribe usa um bucket seguro gerenciado por serviços e fornece um temporário que URI você pode usar para baixar sua transcrição. Observe que URIs os temporários são válidos por 15 minutos. Se você receber um AccessDenied erro ao usar o fornecidoURI, faça uma GetTranscriptionJob solicitação para obter um novo temporário URI para sua transcrição.

Se você optar por um bucket padrão, a transcrição será excluída quando o trabalho expirar (noventa dias). Se quiser manter a transcrição após essa data de expiração, você deverá baixá-la.

As transcrições de streaming são retornadas pelo mesmo método que você está usando para o fluxo.

dica

Se você quiser converter sua JSON saída em uma turn-by-turn transcrição no formato Word, veja este GitHub exemplo (para Python3). Esse script funciona com transcrições de análise pós-chamada e transcrições em lote padrão com a diarização habilitada.

Exemplo de saída

As transcrições fornecem uma transcrição completa em forma de parágrafo, seguida por um word-for-word detalhamento, que fornece dados para cada palavra e sinal de pontuação. Isso inclui hora de início, hora de término, uma pontuação de confiança e um tipo (pronunciation ou punctuation).

O exemplo a seguir é de um trabalho simples de transcrição em lote que não inclui nenhum recurso adicional. Para cada recurso adicional aplicado à solicitação de transcrição, você obtém dados adicionais no arquivo de saída da transcrição.

As transcrições em lote básicas contêm duas seções principais:

  1. transcripts: contém a transcrição completa em um bloco de texto.

  2. items: contém informações sobre cada palavra e sinal de pontuação da seção transcripts.

  3. audio_segments: um segmento de áudio é uma parte específica de uma gravação de áudio que contém linguagem falada ininterrupta, com pausas ou pausas mínimas. Esse segmento captura um fluxo natural da fala e é capturado audio_segments com uma hora de início e uma hora de término. O items elemento dentro de um segmento de áudio é uma sequência de identificadores que corresponde a cada item dentro do segmento.

Cada recurso adicional que você inclui na solicitação de transcrição gera informações adicionais na transcrição.

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }