Meningkatkan pengenalan suara dengan kosakata khusus - Amazon Lex

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meningkatkan pengenalan suara dengan kosakata khusus

Anda dapat memberi Amazon Lex V2 informasi lebih lanjut tentang cara memproses percakapan audio dengan bot dengan membuat kosakata khusus dalam bahasa tertentu. Kosakata kustom adalah daftar frasa tertentu yang Anda ingin Amazon Lex V2 untuk mengenali dalam input audio. Ini umumnya adalah kata benda yang tepat atau kata-kata khusus domain yang tidak dikenali oleh Amazon Lex V2.

Misalnya, anggaplah Anda memiliki bot dukungan teknis. Anda dapat menambahkan “cadangan” ke kosakata khusus untuk membantu bot mentranskripsikan audio dengan benar sebagai “cadangan”, bahkan ketika audio terdengar seperti “berkemas.” Kosakata khusus juga dapat membantu mengenali kata-kata langka dalam audio seperti “solvabilitas” untuk layanan keuangan atau kata benda yang tepat seperti “Cognito” atau “Monitron.”

Dasar-dasar kosakata khusus

  • Kosakata khusus bekerja pada transkripsi input audio ke bot. Anda harus memberikan contoh ucapan untuk mengenali maksud atau nilai slot.

  • Kosakata khusus unik untuk bahasa tertentu. Anda harus mengkonfigurasi kosakata khusus secara independen untuk setiap bahasa. Kosakata khusus hanya didukung untuk bahasa Inggris (Inggris) dan Inggris (AS).

  • Kosakata khusus tersedia dengan integrasi pusat kontak yang didukung oleh Amazon Lex V2. Jendela pengujian di konsol Amazon Lex V2 mendukung kosakata khusus untuk semua bot Amazon Lex V2 yang dibangun pada atau setelah 31 Juli 2022. Jika Anda mengalami masalah dengan kosakata khusus di jendela pengujian, buat kembali bot dan coba lagi.

Amazon Lex V2 menggunakan kosakata khusus untuk mendapatkan maksud dan slot. File kosakata kustom yang sama digunakan untuk maksud dan slot. Anda dapat secara selektif mematikan kemampuan kosakata khusus untuk slot ketika Anda menambahkan jenis slot.

Memunculkan intent — Anda dapat membuat kosakata khusus untuk memunculkan maksud. Frasa ini digunakan untuk transkripsi saat bot Anda menentukan maksud pengguna. Misalnya, jika Anda mengkonfigurasi frasa “cadangan” dalam kosakata kustom Anda, Amazon Lex V2 mentranskripsikan input pengguna ke “dapatkah Anda membuat cadangan foto saya?” —bahkan ketika audio terdengar seperti “bisakah Anda mengemas foto saya.” Anda dapat menentukan tingkat peningkatan untuk setiap frasa dengan mengkonfigurasi berat 0, 1, 2, atau 3. Anda juga dapat menentukan representasi alternatif untuk frasa dalam pidato akhir ke output teks dengan menambahkan displayAs bidang.

Frasa kosakata khusus yang digunakan untuk meningkatkan transkripsi selama elikitasi maksud tidak memengaruhi transkripsi saat memunculkan slot. Untuk informasi selengkapnya tentang membuat kosakata khusus untuk memunculkan maksud, lihat. Membuat kosakata khusus untuk memunculkan maksud dan slot

Memunculkan slot khusus - Anda dapat menggunakan kosakata khusus untuk meningkatkan pengenalan slot untuk percakapan audio. Untuk meningkatkan kemampuan bot Amazon Lex V2 Anda untuk mengenali nilai slot, buat slot khusus dan tambahkan nilai slot ke slot khusus, lalu pilih Gunakan nilai slot sebagai kosakata khusus. Contoh nilai slot termasuk nama produk, katalog, atau kata benda yang tepat. Anda tidak boleh menggunakan kata atau frasa umum seperti “ya” dan “tidak” dalam kosakata khusus.

Setelah nilai slot ditambahkan, nilai ini digunakan untuk meningkatkan pengenalan slot saat bot mengharapkan input untuk slot khusus. Nilai ini tidak digunakan untuk transkripsi saat memunculkan maksud. Untuk informasi selengkapnya, lihat Menambahkan jenis slot.

Praktik terbaik untuk membuat kosakata khusus

Memunculkan maksud

  • Kosakata khusus bekerja paling baik bila digunakan untuk menargetkan kata atau frasa tertentu. Hanya menambahkan kata-kata ke kosakata kustom jika mereka tidak mudah dikenali oleh Amazon Lex V2.

  • Tentukan berapa banyak bobot untuk memberikan kata berdasarkan seberapa sering kata tersebut tidak dikenali dalam transkripsi dan seberapa jarang kata tersebut dalam masukan. Sulit untuk mengucapkan kata-kata membutuhkan bobot yang lebih tinggi.

  • Gunakan set tes representatif untuk menentukan apakah bobot sesuai. Anda dapat mengumpulkan set pengujian audio dengan mengaktifkan log audio di log percakapan.

  • Hindari menggunakan kata-kata pendek seperti “on,” “it,” “to,” “yes,” “no” dalam kosakata kustom.

Memunculkan slot kustom

  • Tambahkan nilai ke jenis slot khusus yang Anda harapkan untuk dikenali. Tambahkan semua nilai slot yang mungkin untuk jenis slot khusus, tidak peduli seberapa umum atau langka nilai slotnya.

  • Aktifkan opsi hanya jika jenis slot khusus berisi daftar nilai katalog atau entitas seperti nama produk atau reksa dana.

  • Nonaktifkan opsi jika jenis slot digunakan untuk menangkap frasa generik seperti “ya,” “tidak,” “Saya tidak tahu,” “mungkin,” atau kata-kata generik seperti “satu,” “dua,” “tiga.”

  • Batasi jumlah nilai slot dan sinonim hingga 500 atau kurang untuk kinerja terbaik.

Masukkan akronim atau kata lain yang hurufnya harus diucapkan secara individual sebagai huruf tunggal yang dipisahkan oleh suatu periode dan spasi. Jangan gunakan huruf individual kecuali mereka adalah bagian dari frasa, seperti “JP Morgan” atau “A.W.” Anda dapat menggunakan huruf besar atau huruf kecil untuk menentukan akronim.

Membuat kosakata khusus untuk memunculkan maksud dan slot

Anda dapat menggunakan konsol Amazon Lex V2 untuk membuat dan mengelola kosakata khusus, atau Anda dapat menggunakan operasi API Amazon Lex V2. Ada 2 cara untuk membuat kosakata khusus melalui konsol:

Impor kosakata khusus di konsol:
  1. Buka konsol Amazon Lex V2 di https://console.aws.amazon.com/lexv2/home

  2. Dari daftar bot, pilih bot yang ingin Anda tambahkan kosakata khusus.

  3. Pada halaman detail bot, dari bagian Tambahkan bahasa, pilih Lihat bahasa.

  4. Dari daftar bahasa, pilih bahasa yang ingin Anda tambahkan kosakata khusus.

Buat kosakata khusus baru langsung melalui konsol:
  1. Klik Buat di bagian Kosakata Kustom pada halaman detail bahasa. Ini akan membuka jendela pengeditan tanpa kosakata khusus.

  2. Tambahkan input untuk frase,DisplayAs, dan berat sesuai kebutuhan. Anda selanjutnya dapat melakukan pengeditan sebaris ke item yang ditambahkan dengan memperbarui bidangnya atau menghapusnya dari daftar.

  3. Klik Simpan. Harap dicatat: kosakata kustom baru hanya disimpan di bot Anda setelah Anda mengklik Simpan.

  4. Anda dapat terus melakukan pengeditan inline di halaman ini dan klik Simpan setelah selesai.

  5. Halaman ini juga memungkinkan Anda mengimpor, mengekspor, dan menghapus file kosakata khusus dari menu drop-down di kanan atas.

Gunakan ListCustomVocabularyItems API untuk melihat entri kosakata khusus:
  1. Gunakan ListCustomVocabularyItems operasi untuk melihat entri kosakata khusus. Badan permintaan akan terlihat seperti ini:

    { "maxResults": number, "nextToken": "string" }
  2. Harap dicatat bahwa maxResults dan nextToken merupakan bidang opsional untuk badan permintaan.

  3. Respons dari ListCustomVocabularyItems operasi terlihat seperti ini:

    { "botId": "string", "botVersion": "string", "localeId": "string", "customVocabularyItems": [ { "itemId": "string", "phrase": "string", "weight": number, "displayAs": "string" } ] }
Gunakan BatchCreateCustomVocabularyItem API untuk membuat entri kosakata kustom baru:
  1. Jika lokal bot Anda belum memiliki kosakata khusus yang dibuat, ikuti langkah-langkah untuk menggunakan kosakata khusus. StartImport

  2. Setelah kosakata khusus dibuat, gunakan BatchCreateCustomVocabularyItem operasi untuk membuat entri kosakata khusus baru. Badan permintaan akan terlihat seperti ini:

    { "customVocabularyItemList": [ { "phrase": "string", "weight": number, "displayAs": "string" } ] }
  3. Harap dicatat bahwa weight dan displayAs merupakan bidang opsional untuk badan permintaan.

  4. Tanggapan dari BatchCreateCustomVocabularyItem akan terlihat seperti ini:

    { "botId": "string", "botVersion": "string", "localeId": "string", "errors": [ { "itemId": "string", "errorMessage": "string", "errorCode": "string" } ], "resources": [ { "itemId": "string", "phrase": "string", "weight": number, "displayAs": "string" } ] }
  5. Karena ini adalah operasi batch, permintaan tidak akan gagal jika salah satu item gagal dibuat. Daftar kesalahan akan berisi informasi tentang mengapa operasi gagal untuk entri tertentu. Daftar sumber daya akan berisi semua entri yang berhasil dibuat.

  6. UntukBatchCreateCustomVocabularyItem, Anda dapat mengharapkan melihat jenis kesalahan:

    • RESOURCE_DOES_NOT_EXIST: Kosakata kustom tidak ada. Ikuti langkah-langkah untuk membuat kosakata khusus sebelum memanggil operasi ini.

    • DUPLICATE_INPUT: Daftar input berisi frasa duplikat.

    • RESOURCE_ALREADY_EXISTS: Frasa yang diberikan untuk entri sudah ada dalam kosakata kustom Anda.

    • INTERNAL_SERVER_FAILURE: Ada kesalahan di backend saat memproses permintaan Anda. Ini mungkin menunjukkan pemadaman layanan atau masalah lain.

Gunakan BatchDeleteCustomVocabularyItem API untuk menghapus entri kosakata kustom yang ada:
  1. Jika lokal bot Anda belum memiliki kosakata khusus yang dibuat, ikuti langkah-langkah untuk Gunakan untuk membuat kosakata khusus StartImportuntuk membuatnya.

  2. Setelah kosakata khusus dibuat, gunakan BatchDeleteCustomVocabularyItem operasi untuk menghapus entri kosakata khusus yang ada. Badan permintaan akan terlihat seperti ini:

    { "customVocabularyItemList": [ { "itemId": "string" } ] }
  3. Tanggapan dari BatchDeleteCustomVocabularyItem akan terlihat seperti ini:

    { "botId": "string", "botVersion": "string", "localeId": "string", "errors": [ { "itemId": "string", "errorMessage": "string", "errorCode": "string" } ], "resources": [ { "itemId": "string", "phrase": "string", "weight": number, "displayAs": "string" } ] }
  4. Karena ini adalah operasi batch, permintaan tidak akan gagal jika salah satu item gagal dihapus. Daftar kesalahan akan berisi informasi tentang mengapa operasi gagal untuk entri tertentu. Daftar sumber daya akan berisi semua entri yang berhasil dihapus.

  5. UntukBatchDeleteCustomVocabularyItem, Anda dapat mengharapkan melihat jenis kesalahan:

    • RESOURCE_DOES_NOT_EXIST: Entri kosakata khusus yang Anda coba hapus tidak ada.

    • INTERNAL_SERVER_FAILURE: Ada kesalahan di backend saat memproses permintaan Anda. Ini mungkin menunjukkan pemadaman layanan atau masalah lain.

Gunakan BatchUpdateCustomVocabularyItem API untuk memperbarui entri kosakata kustom yang ada:
  1. Jika lokal bot Anda belum memiliki kosakata khusus yang dibuat, ikuti langkah-langkah untuk Gunakan untuk membuat kosakata khusus StartImportuntuk membuat kosakata khusus.

  2. Setelah kosakata khusus dibuat, gunakan BatchUpdateCustomVocabularyItem operasi untuk memperbarui entri kosakata khusus yang ada. Badan permintaan akan terlihat seperti ini:

    { "customVocabularyItemList": [ { "itemId": "string", "phrase": "string", "weight": number, "displayAs": "string" } ] }
  3. Harap dicatat bahwa weight dan displayAs merupakan bidang opsional untuk badan permintaan.

  4. Tanggapan dari BatchUpdateCustomVocabularyItem akan terlihat seperti ini:

    { "botId": "string", "botVersion": "string", "localeId": "string", "errors": [ { "itemId": "string", "errorMessage": "string", "errorCode": "string" } ], "resources": [ { "itemId": "string", "phrase": "string", "weight": number, "displayAs": "string" } ] }
  5. Karena ini adalah operasi batch, permintaan tidak akan gagal jika salah satu item gagal dihapus. Daftar kesalahan akan berisi informasi tentang mengapa operasi gagal untuk entri tertentu. Daftar sumber daya akan berisi semua entri yang berhasil diperbarui.

  6. UntukBatchUpdateCustomVocabularyItem, Anda dapat mengharapkan melihat jenis kesalahan:

    • RESOURCE_DOES_NOT_EXIST: Entri kosakata khusus yang Anda coba perbarui tidak ada.

    • DUPLICATE_INPUT: Daftar input berisi duplikat ItemIds.

    • RESOURCE_ALREADY_EXISTS: Frasa yang diberikan untuk entri sudah ada dalam kosakata kustom Anda.

    • INTERNAL_SERVER_FAILURE: Ada kesalahan di backend saat memproses permintaan Anda. Ini mungkin menunjukkan pemadaman layanan atau masalah lain.

Membuat file kosakata khusus

File kosakata khusus adalah daftar nilai yang dipisahkan tab yang berisi frasa untuk dikenali, bobot untuk memberikan dorongan, dan displayAs bidang yang akan menggantikan frasa dalam transkrip pidato. Frase dengan nilai dorongan yang lebih tinggi lebih cenderung digunakan saat muncul di input audio.

File kosakata khusus harus diberi namaCustomVocabulary.tsv, dan harus dikompresi dalam file zip sebelum dapat diimpor. File zip harus berukuran kurang dari 300 MB. Jumlah maksimum frasa dalam kosakata khusus adalah 500.

  • frase 1—4 kata yang harus dikenali. Pisahkan kata-kata dalam frasa dengan spasi. Anda tidak dapat memiliki frasa duplikat dalam file. Bidang frasa diperlukan.

  • berat - Sejauh mana pengenalan frase ditingkatkan. Nilainya adalah bilangan bulat 0, 1, 2, atau 3. Jika Anda tidak menentukan bobot, nilai defaultnya adalah 1. Tentukan bobot berdasarkan seberapa sering kata tersebut tidak dikenali dalam transkripsi dan seberapa jarang kata tersebut dalam masukan. Bobot 0 berarti tidak ada peningkatan yang akan diterapkan dan entri hanya akan digunakan untuk melakukan penggantian menggunakan bidang. displayAs

  • DisplayAs - Mendefinisikan bagaimana Anda ingin frasa Anda terlihat dalam output transkripsi Anda. Ini adalah bidang opsional dalam kosakata kustom.

File kosakata khusus harus berisi baris header dengan header “frase,” “weight,” dan “DisplayAs”. Header dapat dalam urutan apa pun, tetapi harus mengikuti nomenklatur di atas.

Contoh berikut adalah file kosakata kustom. Karakter tab yang diperlukan untuk memisahkan frasa, berat, dan DisplayAs diwakili oleh teks “[TAB]”. Jika Anda menggunakan contoh ini, ganti teks dengan karakter tab.

phrase[TAB]weight[TAB]displayAs Newcastle[TAB]2 Hobart[TAB]2[TAB]Hobart, Australia U. Dub[TAB]1[TAB]University of Washington, Seattle W. S. U.[TAB]3 Issaquah Kennewick