Sumber data Pelatihan versus penyetelan data

Model bahasa khusus

Model bahasa khusus dirancang untuk meningkatkan akurasi transkripsi untuk pidato khusus domain. Ini termasuk konten apa pun di luar apa yang akan Anda dengar dalam percakapan normal dan sehari-hari. Misalnya, jika Anda menyalin proses dari konferensi ilmiah, transkripsi standar tidak mungkin mengenali banyak istilah ilmiah yang digunakan oleh presenter. Dalam hal ini, Anda dapat melatih model bahasa khusus untuk mengenali istilah khusus yang digunakan dalam disiplin Anda.

Tidak seperti kosakata khusus, yang meningkatkan pengenalan kata dengan memberikan petunjuk (seperti pengucapan), model bahasa khusus mempelajari konteks yang terkait dengan kata tertentu. Ini termasuk bagaimana dan kapan sebuah kata digunakan, dan hubungan kata memiliki kata lain. Misalnya, jika Anda melatih model Anda menggunakan makalah penelitian ilmu iklim, model Anda mungkin belajar bahwa 'es floe' adalah pasangan kata yang lebih mungkin daripada 'aliran es'.

Untuk melihat bahasa yang didukung untuk model bahasa kustom, lihatBahasa yang didukung dan fitur khusus bahasa. Perhatikan bahwa jika Anda menyertakan model bahasa khusus dalam permintaan Anda, Anda tidak dapat mengaktifkan identifikasi bahasa (Anda harus menentukan kode bahasa).

Operasi API khusus untuk model bahasa kustom

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

Sumber data

Anda dapat menggunakan semua jenis data teks yang ingin Anda latih model Anda. Namun, semakin dekat konten teks Anda dengan konten audio Anda, semakin akurat model Anda. Oleh karena itu, penting untuk memilih data teks yang menggunakan istilah yang sama dalam konteks yang sama dengan audio Anda.

Data terbaik untuk melatih model adalah transkrip yang akurat. Ini dianggap data dalam domain. Data teks dalam domain memiliki istilah, penggunaan, dan konteks yang sama persis dengan audio yang ingin Anda transkripsikan.

Jika Anda tidak memiliki transkrip yang akurat, gunakan artikel jurnal, laporan teknis, whitepaper, proses konferensi, manual instruksi, artikel berita, konten situs web, dan teks lain yang berisi istilah yang diinginkan yang digunakan dalam konteks yang sama dengan audio Anda. Ini dianggap data terkait domain.

Membuat model bahasa kustom yang kuat mungkin memerlukan sejumlah besar data teks, yang harus berisi istilah yang diucapkan dalam audio Anda. Anda dapat Amazon Transcribe menyediakan data teks hingga 2 GB untuk melatih model Anda—ini disebut sebagai data pelatihan. Secara opsional, jika Anda tidak memiliki (atau sedikit) transkrip dalam domain, Anda dapat menyediakan Amazon Transcribe hingga 200 MB data teks untuk menyesuaikan model Anda—ini disebut sebagai data penyetelan.

Pelatihan versus penyetelan data

Tujuan dari data pelatihan adalah Amazon Transcribe untuk mengajar mengenali istilah-istilah baru dan mempelajari konteks di mana istilah-istilah ini digunakan. Dalam rangka untuk membuat model yang kuat, Amazon Transcribe mungkin memerlukan volume besar data teks yang relevan. Memberikan data pelatihan sebanyak mungkin, hingga batas 2 GB, sangat disarankan.

Tujuan penyetelan data adalah untuk membantu menyempurnakan dan mengoptimalkan hubungan kontekstual yang dipelajari dari data pelatihan Anda. Data penyetelan tidak diperlukan untuk membuat model bahasa khusus.

Terserah Anda untuk memutuskan cara terbaik untuk memilih pelatihan dan, secara opsional, menyetel data. Setiap kasus unik dan tergantung pada jenis dan jumlah data yang Anda miliki. Data penyetelan disarankan jika Anda kekurangan data pelatihan dalam domain.

Jika Anda memilih untuk menyertakan kedua tipe data, jangan tumpang tindih data pelatihan dan penyetelan Anda; data pelatihan dan penyetelan harus unik. Data yang tumpang tindih dapat membiaskan dan memiringkan model bahasa kustom Anda, memengaruhi keakuratannya.

Sebagai panduan umum, sebaiknya gunakan teks dalam domain yang akurat sebagai data pelatihan jika memungkinkan. Berikut adalah beberapa skenario umum, tercantum dalam urutan preferensi:

Jika Anda memiliki lebih dari 10.000 kata teks transkrip dalam domain yang akurat, gunakan sebagai data pelatihan. Dalam hal ini, tidak perlu menyertakan data tuning. Ini adalah skenario ideal untuk melatih model bahasa khusus.
Jika Anda memiliki teks transkrip dalam domain yang akurat yang berisi kurang dari 10.000 kata dan tidak mendapatkan hasil yang diinginkan, pertimbangkan untuk menambah data pelatihan Anda dengan teks tertulis terkait domain, seperti laporan teknis. Dalam hal ini, cadangan sebagian kecil (10-25%) dari data transkrip dalam domain Anda untuk digunakan sebagai data penyetelan.
Jika Anda tidak memiliki teks transkrip dalam domain, unggah semua teks terkait domain Anda sebagai data pelatihan. Dalam hal ini, teks bergaya transkrip lebih disukai daripada teks tertulis. Ini adalah skenario yang paling tidak efektif untuk melatih model bahasa khusus.

Saat Anda siap membuat model, lihatMembuat model bahasa khusus.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan kosakata khusus

Membuat model bahasa khusus