Transkripsi alternatif - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Transkripsi alternatif

Saat Amazon Transcribe mentranskripsikan audio, itu membuat versi berbeda dari transkrip yang sama dan memberikan skor kepercayaan untuk setiap versi. Dalam transkripsi tipikal, Anda hanya mendapatkan versi dengan skor kepercayaan tertinggi.

Jika Anda mengaktifkan transkripsi alternatif, Amazon Transcribe kembalikan versi lain dari transkrip Anda yang memiliki tingkat kepercayaan lebih rendah. Anda dapat memilih untuk mengembalikan hingga 10 transkripsi alternatif. Jika Anda menentukan jumlah alternatif yang lebih besar daripada yang Amazon Transcribe mengidentifikasi, hanya jumlah sebenarnya dari alternatif yang dikembalikan.

Semua alternatif terletak di file keluaran transkripsi yang sama dan disajikan pada tingkat segmen. Segmen adalah jeda alami dalam pidato, seperti perubahan speaker atau jeda dalam audio.

Transkripsi alternatif hanya tersedia untuk transkripsi batch.

Output transkripsi Anda disusun sebagai berikut. Elips (...) dalam contoh kode menunjukkan di mana konten telah dihapus untuk singkatnya.

  1. Transkripsi akhir lengkap untuk segmen tertentu.

    "results": { "language_code": "en-US", "transcripts": [ { "transcript": "The amazon is the largest rainforest on the planet." } ],
  2. Skor kepercayaan untuk setiap kata di bagian sebelumnya. transcript

    "items": [ { "start_time": "1.15", "end_time": "1.35", "alternatives": [ { "confidence": "1.0", "content": "The" } ], "type": "pronunciation" }, { "start_time": "1.35", "end_time": "2.05", "alternatives": [ { "confidence": "1.0", "content": "amazon" } ], "type": "pronunciation" },
  3. Transkripsi alternatif Anda terletak di segments bagian output transkripsi Anda. Alternatif untuk setiap segmen diurutkan berdasarkan skor kepercayaan turun.

    "segments": [ { "start_time": "1.04", "end_time": "5.065", "alternatives": [ { ... "transcript": "The amazon is the largest rain forest on the planet.", "items": [ { "start_time": "1.15", "confidence": "1.0", "end_time": "1.35", "type": "pronunciation", "content": "The" }, ... { "start_time": "3.06", "confidence": "0.0037", "end_time": "3.38", "type": "pronunciation", "content": "rain" }, { "start_time": "3.38", "confidence": "0.0037", "end_time": "3.96", "type": "pronunciation", "content": "forest" },
  4. Status di akhir keluaran transkripsi Anda.

    "status": "COMPLETED" }

Meminta transkripsi alternatif

Anda dapat meminta transkripsi alternatif menggunakan AWS Management Console, AWS CLI, atau AWS SDKs; lihat contoh berikut:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Pekerjaan transkripsi, lalu pilih Buat pekerjaan (kanan atas). Ini membuka halaman Tentukan detail pekerjaan.

    Amazon Transcribe konsol 'Tentukan detail pekerjaan' halaman. Di panel 'Pengaturan pekerjaan', Anda dapat menentukan nama untuk pekerjaan transkripsi Anda, memilih jenis Model, dan menentukan pengaturan bahasa Anda.
  3. Isi kolom yang ingin Anda sertakan di halaman Tentukan detail pekerjaan, lalu pilih Berikutnya. Ini membawa Anda ke halaman Konfigurasi pekerjaan - opsional.

    Pilih Hasil alternatif dan tentukan jumlah maksimum hasil transkripsi alternatif yang Anda inginkan dalam transkrip Anda.

    Amazon Transcribe konsol 'Konfigurasikan pekerjaan' halaman. Di panel 'Pengaturan audio', Anda dapat mengaktifkan Hasil alternatif dan menentukan jumlah maksimum alternatif yang ingin Anda sertakan dalam keluaran transkripsi Anda.
  4. Pilih Buat pekerjaan untuk menjalankan pekerjaan transkripsi Anda.

Contoh ini menggunakan start-transcription-jobperintah dan ShowAlternatives parameter. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan ShowAlternatives.

Perhatikan bahwa jika Anda memasukkan ShowAlternatives=true dalam permintaan Anda, Anda juga harus menyertakanMaxAlternatives.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --settings ShowAlternatives=true,MaxAlternatives=4

Berikut contoh lain menggunakan start-transcription-jobperintah, dan badan permintaan yang menyertakan transkripsi alternatif.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://filepath/my-first-alt-transcription-job.json

File my-first-alt-transcription-job.json berisi badan permintaan berikut.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "ShowAlternatives": true, "MaxAlternatives": 4 } }

Contoh berikut menggunakan AWS SDK for Python (Boto3) untuk meminta transkripsi alternatif dengan menggunakan ShowAlternatives argumen untuk metode start_transcription_job. Untuk informasi selengkapnya, silakan lihat StartTranscriptionJob dan ShowAlternatives.

Untuk contoh tambahan menggunakan AWS SDKs, termasuk contoh khusus fitur, skenario, dan lintas layanan, lihat bagian ini. Contoh kode untuk Amazon Transcribe menggunakan AWS SDKs

Perhatikan bahwa jika Anda memasukkan 'ShowAlternatives':True dalam permintaan Anda, Anda juga harus menyertakanMaxAlternatives.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'ShowAlternatives':True, 'MaxAlternatives':4 } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)