Membuat subtitle video

Mode fokus

Membuat subtitle video - Amazon Transcribe

Amazon Transcribe mendukung keluaran WebVTT (*.vtt) dan (*.srt) SubRip untuk digunakan sebagai subtitle video. Anda dapat memilih satu atau kedua jenis file saat menyiapkan pekerjaan transkripsi video batch Anda. Saat menggunakan fitur subtitle, file subtitle yang Anda pilih dan file transkrip biasa (berisi informasi tambahan) diproduksi. File subtitle dan transkripsi dihasilkan ke tujuan yang sama.

Subtitle ditampilkan pada saat yang sama teks diucapkan, dan tetap terlihat sampai ada jeda alami atau pembicara selesai berbicara. Perhatikan bahwa jika Anda mengaktifkan subtitle dalam permintaan transkripsi dan audio Anda tidak berisi ucapan, file subtitle tidak akan dibuat.

penting

Amazon Transcribe menggunakan indeks awal default 0 untuk output subtitle, yang berbeda dari nilai yang lebih banyak digunakan. 1 Jika Anda memerlukan indeks awal1, Anda dapat menentukan ini di AWS Management Console atau di permintaan API Anda menggunakan OutputStartIndexparameter.

Menggunakan indeks awal yang salah dapat mengakibatkan kesalahan kompatibilitas dengan layanan lain, jadi pastikan untuk memverifikasi indeks awal yang Anda butuhkan sebelum membuat subtitle Anda. Jika Anda tidak yakin nilai mana yang akan digunakan, sebaiknya pilih1. Lihat Subtitlesuntuk informasi lebih lanjut.

Fitur yang didukung dengan subtitle:

Redaksi konten - Setiap konten yang disunting tercermin sebagai 'PII' di file keluaran subtitle dan transkrip reguler Anda. Audio tidak diubah.
Filter kosakata — File subtitle dihasilkan dari file transkripsi, jadi kata apa pun yang Anda filter dalam keluaran transkripsi standar Anda juga difilter dalam subtitle Anda. Konten yang difilter ditampilkan sebagai spasi putih atau *** dalam file transkrip dan subtitle Anda. Audio tidak diubah.
Diarisasi speaker — Jika ada beberapa speaker di segmen subtitle tertentu, tanda hubung digunakan untuk membedakan setiap pembicara. Ini berlaku untuk WebVTT SubRip dan format; misalnya:
- -- Teks yang diucapkan oleh Orang 1
- -- Teks yang diucapkan oleh Orang 2

File subtitle disimpan di Amazon S3 lokasi yang sama dengan output transkripsi Anda.

Untuk panduan video dalam membuat subtitle, lihat:

Menghasilkan file subtitle

Anda dapat membuat file subtitle menggunakan AWS Management Console, AWS CLI, atau AWS SDKs; lihat contoh berikut:

Masuk ke AWS Management Console.
Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan. Opsi subtitle terletak di panel data Output.
Pilih format yang Anda inginkan untuk file subtitle Anda, lalu pilih nilai untuk indeks awal Anda. Perhatikan bahwa Amazon Transcribe defaultnya 1 adalah0, tetapi lebih banyak digunakan. Jika Anda tidak yakin nilai mana yang akan digunakan, sebaiknya pilih1, karena ini dapat meningkatkan kompatibilitas dengan layanan lain.
Isi kolom lain yang ingin Anda sertakan di halaman Tentukan detail pekerjaan, lalu pilih Berikutnya. Ini membawa Anda ke halaman Konfigurasi pekerjaan - opsional.
Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

AWS Management Console

Masuk ke AWS Management Console.
Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan. Opsi subtitle terletak di panel data Output.
Pilih format yang Anda inginkan untuk file subtitle Anda, lalu pilih nilai untuk indeks awal Anda. Perhatikan bahwa Amazon Transcribe defaultnya 1 adalah0, tetapi lebih banyak digunakan. Jika Anda tidak yakin nilai mana yang akan digunakan, sebaiknya pilih1, karena ini dapat meningkatkan kompatibilitas dengan layanan lain.
Isi kolom lain yang ingin Anda sertakan di halaman Tentukan detail pekerjaan, lalu pilih Berikutnya. Ini membawa Anda ke halaman Konfigurasi pekerjaan - opsional.
Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah dan Subtitles parameter. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan Subtitles.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--subtitles Formats=vtt,srt,OutputStartIndex=1

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menambahkan subtitle ke pekerjaan itu.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-subtitle-job.json

File my-first-subtitle-job.json berisi badan permintaan berikut.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "Subtitles": {
        "Formats": [
            "vtt","srt"
        ],             
        "OutputStartIndex": 1
   }
}

AWS CLI

Contoh ini menggunakan start-transcription-jobperintah dan Subtitles parameter. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan Subtitles.


aws transcribe start-transcription-job \
--region us-west-2 \
--transcription-job-name my-first-transcription-job \
--media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \
--output-bucket-name amzn-s3-demo-bucket \
--output-key my-output-files/ \
--language-code en-US \
--subtitles Formats=vtt,srt,OutputStartIndex=1

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menambahkan subtitle ke pekerjaan itu.


aws transcribe start-transcription-job \
--region us-west-2 \
--cli-input-json file://my-first-subtitle-job.json

File my-first-subtitle-job.json berisi badan permintaan berikut.


{
  "TranscriptionJobName": "my-first-transcription-job",
  "Media": {
        "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
  },
  "OutputBucketName": "amzn-s3-demo-bucket",
  "OutputKey": "my-output-files/", 
  "LanguageCode": "en-US",
  "Subtitles": {
        "Formats": [
            "vtt","srt"
        ],             
        "OutputStartIndex": 1
   }
}

Contoh ini menggunakan AWS SDK untuk Python (Boto3) untuk menambahkan subtitle menggunakan Subtitles argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan Subtitles.

Untuk contoh tambahan menggunakan AWS SDKs, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Subtitles = {
        'Formats': [
            'vtt','srt'
        ],
        'OutputStartIndex': 1 
   }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)

AWS SDK untuk Python (Boto3)

Untuk contoh tambahan menggunakan AWS SDKs, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs


from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2')
job_name = "my-first-transcription-job"
job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac"
transcribe.start_transcription_job(
    TranscriptionJobName = job_name,
    Media = {
        'MediaFileUri': job_uri
    },
    OutputBucketName = 'amzn-s3-demo-bucket',
    OutputKey = 'my-output-files/', 
    LanguageCode = 'en-US', 
    Subtitles = {
        'Formats': [
            'vtt','srt'
        ],
        'OutputStartIndex': 1 
   }
)

while True:
    status = transcribe.get_transcription_job(TranscriptionJobName = job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
    print("Not ready yet...")
    time.sleep(5)
print(status)