Criar legendas de vídeo - Amazon Transcribe

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar legendas de vídeo

Amazon Transcribesuporta saídas WebVTT (*.vtt) e SubRip (*.srt) para uso como legendas de vídeo. Você pode selecionar um ou ambos os tipos de arquivo ao configurar seu trabalho de transcrição de vídeo em lote. Ao usar o recurso de legenda, os arquivos de legenda selecionados e um arquivo de transcrição normal (contendo informações adicionais) são produzidos. Os arquivos de legenda e transcrição são enviados para o mesmo destino.

As legendas são exibidas ao mesmo tempo em que o texto é falado e permanecem visíveis até que haja uma pausa natural ou o alto-falante termine de falar. Observe que se você habilitar as legendas em sua solicitação de transcrição e seu áudio não contiver voz, um arquivo de legenda não será criado.

Importante

Amazon Transcribeusa um índice inicial padrão de 0 para saída de legendas, que difere do valor mais amplamente usado de. 1 Se você precisar de um índice inicial de1, você pode especificar isso na AWS Management Console ou na sua solicitação de API usando o OutputStartIndexparâmetro.

Usar o índice inicial incorreto pode resultar em erros de compatibilidade com outros serviços, portanto, verifique qual índice inicial você precisa antes de criar suas legendas. Se você não tiver certeza de qual valor usar, recomendamos escolher1. Consulte Subtitlespara obter mais informações.

Recursos compatíveis com legendas:

  • Redação de conteúdo — Qualquer conteúdo editado é refletido como 'PII' nos arquivos de saída da legenda e da transcrição normal. O áudio não foi alterado.

  • Filtros de vocabulário — Os arquivos de legenda são gerados a partir do arquivo de transcrição, portanto, todas as palavras que você filtrar na saída padrão da transcrição também são filtradas nas legendas. O conteúdo filtrado é exibido como espaço em branco ou *** em seus arquivos de transcrição e legenda. O áudio não foi alterado.

  • Diarização do alto-falante — Se houver vários alto-falantes em um determinado segmento de legenda, traços serão usados para distinguir cada alto-falante. Isso se aplica tanto ao WebVTT quanto aos SubRip formatos; por exemplo:

    • -- Texto falado pela Pessoa 1

    • -- Texto falado pela Pessoa 2

Os arquivos de legenda são armazenados no mesmo Amazon S3 local da saída da transcrição.

Para ver um vídeo passo a passo sobre a criação de legendas, consulte:

Geração de arquivos de legendas

Você pode criar arquivos de legendas usando o AWS Management ConsoleAWS CLI, ou AWSSDKs; veja os exemplos a seguir:

  1. Faça login no AWS Management Console.

  2. No painel de navegação, escolha Trabalhos de transcrição e selecione Criar trabalho (canto superior direito). Isso abre a página Especificar detalhes do trabalho. As opções de legenda estão localizadas no painel Dados de saída.

  3. Selecione os formatos que você deseja para seus arquivos de legendas e, em seguida, escolha um valor para seu índice inicial. Observe que o Amazon Transcribe padrão é0, mas 1 é mais amplamente usado. Se você não tiver certeza de qual valor usar, recomendamos escolher1, pois isso pode melhorar a compatibilidade com outros serviços.

    Amazon Transcribecaptura de tela do console: o painel “dados de saída” na página “especificar detalhes do trabalho”.
  4. Preencha todos os outros campos que você deseja incluir na página Especificar detalhes do trabalho e selecione Avançar. Isso leva você à página Configurar tarefa - opcional.

  5. Selecione Criar tarefa para executar sua tarefa de transcrição.

Este exemplo usa o start-transcription-jobcomando e o Subtitles parâmetro. Para ter mais informações, consulte StartTranscriptionJob e Subtitles.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac \ --output-bucket-name DOC-EXAMPLE-BUCKET \ --output-key my-output-files/ \ --language-code en-US \ --subtitles Formats=vtt,srt,OutputStartIndex=1

Aqui está outro exemplo usando o start-transcription-jobcomando e um corpo de solicitação que adiciona legendas a esse trabalho.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-subtitle-job.json

O arquivo my-first-subtitle-job.json contém o corpo da solicitação a seguir.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Subtitles": { "Formats": [ "vtt","srt" ], "OutputStartIndex": 1 } }

Este exemplo usa o AWS SDK for Python (Boto3) para adicionar legendas usando o Subtitles argumento do método start_transcription_job. Para ter mais informações, consulte StartTranscriptionJob e Subtitles.

Para ver exemplos adicionais de uso dos AWS SDKs, incluindo exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo. Exemplos de código para o Amazon Transcribe usando SDKs AWS

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Subtitles = { 'Formats': [ 'vtt','srt' ], 'OutputStartIndex': 1 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)