Mentranskripsikan audio multi-saluran - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mentranskripsikan audio multi-saluran

Jika Anda memiliki file audio atau streaming yang memiliki beberapa saluran, Anda dapat menggunakan identifikasi saluran untuk mentranskripsikan ucapan dari masing-masing saluran tersebut. Amazon Transcribe Medis mentranskripsikan pidato dari setiap saluran secara terpisah. Ini menggabungkan transkripsi terpisah dari setiap saluran ke dalam output transkripsi tunggal.

Gunakan identifikasi saluran untuk mengidentifikasi saluran terpisah dalam audio Anda dan mentranskripsikan ucapan dari masing-masing saluran tersebut. Aktifkan ini dalam situasi seperti skenario penelepon dan agen. Gunakan ini untuk membedakan penelepon dari agen dalam rekaman atau aliran dari pusat kontak yang melakukan pemantauan keamanan obat.

Anda dapat mengaktifkan identifikasi saluran untuk pemrosesan batch dan streaming waktu nyata. Daftar berikut ini menjelaskan cara mengaktifkannya untuk setiap metode.

Mentranskripsikan file audio multi-saluran

Saat Anda mentranskripsikan file audio,Amazon Transcribe Medical mengembalikan daftar item untuk setiap saluran. Item adalah kata yang ditranskripsikan atau tanda baca. Setiap kata memiliki waktu mulai dan waktu akhir. Jika seseorang di satu saluran berbicara tentang seseorang di saluran terpisah, waktu mulai dan waktu akhir item untuk setiap saluran tumpang tindih sementara individu berbicara satu sama lain.

Secara default, Anda dapat mentranskripsikan file audio dengan dua saluran. Anda dapat meminta peningkatan kuota jika Anda perlu mentranskripsikan file yang memiliki lebih dari dua saluran. Untuk informasi selengkapnya tentang meminta peningkatan kuota, lihat Layanan AWSkuota.

Untuk mentranskripsikan audio multi-saluran dalam pekerjaan transkripsi batch, gunakanAWS Management Console atau StartMedicalTranscriptionJobAPI.

Untuk menggunakanAWS Management Console untuk mengaktifkan identifikasi saluran dalam pekerjaan transkripsi batch Anda, Anda mengaktifkan identifikasi audio dan kemudian identifikasi saluran. Identifikasi saluran adalah bagian dari identifikasi audio diAWS Management Console.

  1. Masuk ke AWS Management Console.

  2. Dalam panel navigasi, di bawahAmazon Transcribe Medis, pilih pekerjaan Transkripsi.

  3. Pilih Buat tugas.

  4. Pada halaman Tentukan detail pekerjaan, berikan informasi tentang pekerjaan transkripsi Anda.

  5. Pilih Selanjutnya.

  6. Aktifkan identifikasi Audio.

  7. Untuk jenis identifikasi Audio, pilih Identifikasi saluran.

  8. Pilih Create (Buat).

Untuk mentranskripsikan file audio multi-channel (API)
  • Untuk StartMedicalTranscriptionJobAPI, tentukan yang berikut ini.

    1. UntukTranscriptionJobName, tentukan nama yang unik untuk AndaAkun AWS.

    2. UntukLanguageCode, tentukan kode bahasa yang sesuai dengan bahasa yang digunakan dalam file audio. Nilai yang valid adalahen-US.

    3. UntukMediaFileUri parameterMedia objek, tentukan nama file media yang ingin Anda transkripsikan.

    4. UntukSettings objek, aturChannelIdentification ketrue.

Berikut ini adalah contoh permintaan menggunakanAWS SDK for Python (Boto3).

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_name = "my-first-med-transcription-job" job_uri = "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-media-file.flac" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'DOC-EXAMPLE-BUCKET', OutputKey = 'output-files/', LanguageCode = 'en-US', Specialty = 'PRIMARYCARE', Type = 'CONVERSATION', Settings = { 'ChannelIdentification': True } ) while True: status = transcribe.get_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Untuk mentranskripsikan file audio multi-channel menggunakan pekerjaan transkripsi batch (AWS CLI)
  • Jalankan kode berikut.

    aws transcribe start-medical-transcription-job \ --region us-west-2 \ --cli-input-json file://example-start-command.json

    Berikut ini adalah kode dariexample-start-command.json.

    { "MedicalTranscriptionJobName": "my-first-med-transcription-job", "Media": { "MediaFileUri": "s3://DOC-EXAMPLE-BUCKET/my-input-files/my-audio-file.flac" }, "OutputBucketName": "DOC-EXAMPLE-BUCKET", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Specialty": "PRIMARYCARE", "Type": "CONVERSATION", "Settings":{ "ChannelIdentification": true } }

Kode berikut menunjukkan output transkripsi untuk file audio yang memiliki percakapan pada dua saluran.

{ "jobName": "job id", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "When you try ... It seems to ..." } ], "channel_labels": { "channels": [ { "channel_label": "ch_0", "items": [ { "start_time": "12.282", "end_time": "12.592", "alternatives": [ { "confidence": "1.0000", "content": "When" } ], "type": "pronunciation" }, { "start_time": "12.592", "end_time": "12.692", "alternatives": [ { "confidence": "0.8787", "content": "you" } ], "type": "pronunciation" }, { "start_time": "12.702", "end_time": "13.252", "alternatives": [ { "confidence": "0.8318", "content": "try" } ], "type": "pronunciation" }, ... ] }, { "channel_label": "ch_1", "items": [ { "start_time": "12.379", "end_time": "12.589", "alternatives": [ { "confidence": "0.5645", "content": "It" } ], "type": "pronunciation" }, { "start_time": "12.599", "end_time": "12.659", "alternatives": [ { "confidence": "0.2907", "content": "seems" } ], "type": "pronunciation" }, { "start_time": "12.669", "end_time": "13.029", "alternatives": [ { "confidence": "0.2497", "content": "to" } ], "type": "pronunciation" }, ... ] } }

Mentranskripsikan aliran audio multi-saluran

Anda dapat mentranskripsikan audio dari saluran terpisah di HTTP/2 atau WebSocket streaming menggunakan StartMedicalStreamTranscriptionAPI.

Secara default, Anda dapat mentranskripsikan aliran dengan dua saluran. Anda dapat meminta peningkatan kuota jika Anda perlu mentranskripsikan aliran yang memiliki lebih dari dua saluran. Untuk informasi selengkapnya tentang meminta peningkatan kuota layanan, lihat kuotaAWS layanan.

Mentranskripsikan audio multi-saluran dalam aliran HTTP/2

Untuk mentranskripsikan audio multi-saluran dalam aliran HTTP/2, gunakan StartMedicalStreamTranscriptionAPI dan tentukan yang berikut:

  • LanguageCode- Kode bahasa audio. Nilai yang valid adalahen-US.

  • MediaEncoding- Pengkodean audio. Nilai yang valid adalah ogg-opus, flac, dan pcm.

  • EnableChannelIdentificationtrue

  • NumberOfChannels- jumlah saluran dalam audio streaming Anda.

Untuk informasi selengkapnya tentang cara menyiapkan streaming HTTP/2 untuk mentranskripsikan percakapan medis, lihatMenyiapkan aliran HTTP /2.

Mentranskripsikan audio multi-saluran dalam WebSocket aliran

Untuk mempartisi speaker dalam WebSocket aliran, gunakan format berikut untuk membuat URI yang telah ditandatangani sebelumnya dan mulai WebSocket permintaan. Tentukanenable-channel-identification sebagaitrue dan jumlah saluran di streaming Andanumber-of-channels. URI yang telah ditandatangani sebelumnya berisi informasi yang diperlukan untuk mengatur komunikasi dua arah antara aplikasi Anda danAmazon Transcribe Medis.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/medical-stream-transcription-websocket ?language-code=languageCode &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=Signature Version 4 signature &X-Amz-SignedHeaders=host &media-encoding=flac &sample-rate=16000 &session-id=sessionId &enable-channel-identification=true &number-of-channels=2

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasiAWS API dicantumkan di bagian Parameter Umum.

Untuk informasi selengkapnya tentang WebSocket permintaan, lihatMenyiapkan WebSocket aliran.

Output streaming multi-saluran

Output dari transkripsi streaming sama untuk HTTP/2 dan WebSocket permintaan. Berikut ini adalah output contoh.

{ "resultId": "XXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXX", "startTime": 0.11, "endTime": 0.66, "isPartial": false, "alternatives": [ { "transcript": "Left.", "items": [ { "startTime": 0.11, "endTime": 0.45, "type": "pronunciation", "content": "Left", "vocabularyFilterMatch": false }, { "startTime": 0.45, "endTime": 0.45, "type": "punctuation", "content": ".", "vocabularyFilterMatch": false } ] } ], "channelId": "ch_0" }

Untuk setiap segmen pidato, adachannelId bendera yang menunjukkan saluran mana pidato milik.