Identifikasi bahasa dengan transkripsi streaming - Amazon Transcribe

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Identifikasi bahasa dengan transkripsi streaming

Identifikasi bahasa streaming dapat mengidentifikasi bahasa dominan yang digunakan dalam aliran media Anda. Amazon Transcribemembutuhkan minimal tiga detik pidato untuk mengidentifikasi bahasa.

Jika aliran Anda hanya berisi satu bahasa, Anda dapat mengaktifkan identifikasi bahasa tunggal, yang mengidentifikasi bahasa dominan yang digunakan dalam file media Anda dan membuat transkrip Anda hanya menggunakan bahasa ini.

Jika streaming Anda berisi lebih dari satu bahasa, Anda dapat mengaktifkan identifikasi multi-bahasa, yang mengidentifikasi semua bahasa yang digunakan dalam aliran Anda dan membuat transkrip menggunakan setiap bahasa yang diidentifikasi. Perhatikan bahwa transkrip multi-bahasa diproduksi. Anda dapat menggunakan layanan lain, sepertiAmazon Transcribe, untuk menerjemahkan transkrip Anda.

Untuk menggunakan identifikasi bahasa streaming, Anda harus memberikan setidaknya dua kode bahasa, dan Anda hanya dapat memilih satu dialek bahasa per bahasa per aliran. Ini berarti Anda tidak dapat memilih en-US dan en-AU sebagai opsi bahasa untuk transkripsi yang sama.

Anda juga memiliki opsi untuk memilih bahasa pilihan dari kumpulan kode bahasa yang Anda berikan. Menambahkan bahasa pilihan dapat mempercepat proses identifikasi bahasa, yang berguna untuk klip audio pendek.

penting

Jika tidak ada kode bahasa yang Anda berikan cocok dengan bahasa, atau bahasa, yang diidentifikasi dalam audio Anda, Amazon Transcribe pilih kecocokan bahasa terdekat dari kode bahasa yang Anda tentukan. Kemudian menghasilkan transkrip dalam bahasa itu. Misalnya, jika media Anda dalam bahasa Inggris AS (en-US) dan Anda memberikan Amazon Transcribe kode bahasa,, dan zh-CN fr-FRde-DE, Amazon Transcribe kemungkinan akan mencocokkan media Anda dengan bahasa Jerman (de-DE) dan menghasilkan transkripsi berbahasa Jerman. Ketidakcocokan kode bahasa dan bahasa lisan dapat mengakibatkan transkrip yang tidak akurat, jadi sebaiknya berhati-hati saat menyertakan kode bahasa.

Jika media Anda berisi dua saluran, Amazon Transcribe dapat mengidentifikasi bahasa dominan yang digunakan di setiap saluran. Dalam hal ini, atur ChannelIdentificationparameter ke true dan setiap saluran ditranskripsi secara terpisah. Perhatikan bahwa default untuk parameter ini adalahfalse. Jika Anda tidak mengubahnya, hanya saluran pertama yang ditranskripsi dan hanya satu bahasa yang diidentifikasi.

Identifikasi bahasa streaming tidak dapat digabungkan dengan model bahasa khusus atau redaksi. Jika menggabungkan identifikasi bahasa dengan fitur lain, Anda terbatas pada bahasa yang didukung dengan fitur tersebut, dan juga dengan transkripsi streaming. Lihat bahasa yang didukung.

catatan

PCM dan FLAC adalah satu-satunya format audio yang didukung untuk identifikasi bahasa streaming.

Mengidentifikasi bahasa dalam audio multi-bahasa

Identifikasi multi-bahasa ditujukan untuk aliran multi-bahasa, dan memberi Anda transkrip yang mencerminkan semua bahasa yang didukung yang digunakan dalam aliran Anda. Ini berarti bahwa jika penutur mengubah bahasa di tengah percakapan, atau jika setiap peserta berbicara bahasa yang berbeda, output transkripsi Anda mendeteksi dan menyalin setiap bahasa dengan benar.

Misalnya, jika streaming Anda berisi pembicara bilingual yang bergantian antara bahasa Inggris AS (en-US) dan Hindi (hi-IN), identifikasi multi-bahasa dapat mengidentifikasi dan mentranskripsikan bahasa Inggris AS lisan sebagai dan bahasa Hindi yang diucapkan sebagaien-US. hi-IN Ini berbeda dari identifikasi bahasa tunggal, di mana hanya satu bahasa dominan yang digunakan untuk membuat transkrip. Dalam hal ini, bahasa lisan apa pun yang bukan bahasa dominan ditranskripsikan secara tidak benar.

catatan

Redaksi dan model bahasa kustom saat ini tidak didukung dengan identifikasi multi-bahasa.

Menggunakan identifikasi bahasa dengan media streaming

Anda dapat menggunakan identifikasi bahasa otomatis dalam transkripsi streaming menggunakan AWS Management Console, HTTP/2, atau WebSockets; lihat contoh berikut:

  1. Masuk ke AWS Management Console.

  2. Di panel navigasi, pilih Transkripsi waktu nyata. Gulir ke bawah ke pengaturan Bahasa dan perluas bidang ini jika diminimalkan.

    Amazon Transcribetangkapan layar konsol: tab 'pengaturan bahasa' yang diciutkan di halaman 'transkripsi waktu'.
  3. Pilih Identifikasi bahasa otomatis atau Identifikasi beberapa bahasa otomatis.

    Amazon Transcribetangkapan layar konsol: tab 'pengaturan bahasa' yang diperluas.
  4. Berikan minimal dua kode bahasa untuk transkripsi Anda. Perhatikan bahwa Anda hanya dapat menyediakan satu dialek per bahasa. Misalnya, Anda tidak dapat memilih keduanya en-US dan fr-CA sebagai opsi bahasa untuk transkripsi yang sama.

    Amazon Transcribetangkapan layar konsol: menu tarik-turun pemilihan kode bahasa.
  5. (Opsional) Dari subset bahasa yang Anda pilih pada langkah sebelumnya, Anda dapat memilih bahasa yang disukai untuk transkrip Anda.

    Amazon Transcribetangkapan layar konsol: panel 'pengaturan bahasa' dengan opsi bahasa pilihan.
  6. Anda sekarang siap untuk mentranskripsikan aliran Anda. Pilih Mulai streaming dan mulai berbicara. Untuk mengakhiri dikte Anda, pilih Hentikan streaming.

Contoh ini membuat permintaan HTTP/2 dengan identifikasi bahasa diaktifkan. Untuk informasi lebih lanjut tentang menggunakan streaming HTTP/2 denganAmazon Transcribe, lihat. Menyiapkan aliran HTTP /2 Untuk detail selengkapnya tentang parameter dan header khusus untukAmazon Transcribe, lihat StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-identify-language: true x-amzn-transcribe-language-options: en-US,de-DE x-amzn-transcribe-preferred-language: en-US transfer-encoding: chunked

Contoh ini membuat permintaan HTTP/2 dengan identifikasi beberapa bahasa diaktifkan. Untuk informasi lebih lanjut tentang menggunakan streaming HTTP/2 denganAmazon Transcribe, lihat. Menyiapkan aliran HTTP /2 Untuk detail selengkapnya tentang parameter dan header khusus untukAmazon Transcribe, lihat StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-identify-multiple-languages: true x-amzn-transcribe-language-options: en-US,de-DE x-amzn-transcribe-preferred-language: en-US transfer-encoding: chunked

Jika Anda menggunakan identify-language atau identify-multiple-languages dalam permintaan Anda, Anda juga harus menyertakanlanguage-options. Anda tidak dapat menggunakan keduanya language-code dan identify-language dalam permintaan yang sama.

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasi AWS API tercantum di bagian Parameter Umum.

Contoh ini membuat URL presigned yang menggunakan identifikasi bahasa dalam WebSocket aliran. Jeda baris telah ditambahkan untuk keterbacaan. Untuk informasi selengkapnya tentang penggunaan WebSocket stream denganAmazon Transcribe, lihatMenyiapkan WebSocket aliran. Untuk detail lebih lanjut tentang parameter, lihat StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &media-encoding=flac &sample-rate=16000 &identify-language=true &language-options=en-US,de-DE &preferred-language=en-US

Contoh ini membuat URL presigned yang menggunakan identifikasi beberapa bahasa dalam WebSocket aliran. Jeda baris telah ditambahkan untuk keterbacaan. Untuk informasi selengkapnya tentang penggunaan WebSocket stream denganAmazon Transcribe, lihatMenyiapkan WebSocket aliran. Untuk detail lebih lanjut tentang parameter, lihat StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &media-encoding=flac &sample-rate=16000 &identify-multiple-languages=true &language-options=en-US,de-DE &preferred-language=en-US

Jika Anda menggunakan identify-language atau identify-multiple-languages dalam permintaan Anda, Anda juga harus menyertakanlanguage-options. Anda tidak dapat menggunakan keduanya language-code dan identify-language dalam permintaan yang sama.

Definisi parameter dapat ditemukan di Referensi API; parameter yang umum untuk semua operasi AWS API tercantum di bagian Parameter Umum.