Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Rincian hasil tes di Test Workbench
Hasil tes menunjukkan rincian set tes, maksud yang digunakan, dan slot yang digunakan. Ini juga menyediakan rincian input set tes keseluruhan mencakup hasil keseluruhan, hasil percakapan, maksud, dan hasil slot.
Hasil tes terdiri dari semua informasi terkait pengujian seperti:
-
Metadata detail uji
-
Hasil keseluruhan
-
Hasil percakapan
-
Hasil maksud dan slot
-
Hasil terperinci
Tab hasil keseluruhan:
Rincian input set tes - Bagan ini menunjukkan rincian jumlah percakapan dan ucapan input tunggal dalam set pengujian.
Perincian input tunggal — Menampilkan dua bagan yang mencakup end-to-end percakapan dan transkripsi ucapan. Jumlah input yang lulus dan gagal ditunjukkan pada setiap bagan. Catatan: Bagan transkripsi ucapan hanya akan terlihat untuk set tes audio.
Perincian percakapan - Menampilkan dua bagan yang mencakup end-to-end percakapan dan transkripsi ucapan. Jumlah input yang lulus dan gagal ditunjukkan pada setiap bagan. Catatan: Bagan transkripsi ucapan hanya akan terlihat untuk set tes audio.
Tab hasil percakapan:
Tingkat kelulusan percakapan — Tabel tarif kelulusan percakapan digunakan untuk melihat maksud dan slot mana yang digunakan dalam setiap percakapan di set tes. Anda dapat memvisualisasikan di mana percakapan gagal dengan meninjau maksud atau slot mana yang gagal, bersama dengan persentase kelulusan dari setiap maksud dan slot.
Metrik kegagalan maksud percakapan — Metrik ini menunjukkan 5 intent berkinerja terburuk teratas dalam set pengujian. Panel ini menunjukkan bagan berapa persen atau jumlah maksud yang berhasil atau gagal berdasarkan log percakapan atau transkripsi bot. Niat yang sukses tidak berarti bahwa seluruh percakapan berhasil. Metrik ini hanya berlaku untuk nilai intent, terlepas dari maksud mana yang datang sebelum atau sesudahnya.
Metrik kegagalan slot percakapan — Metrik ini menunjukkan 5 slot berkinerja terburuk teratas dalam set pengujian. Menunjukkan tingkat keberhasilan untuk setiap slot dalam maksud. Grafik batang menunjukkan transkripsi ucapan dan end-to-end percakapan untuk setiap slot dalam maksud.
Tab hasil intent dan slot:
Metrik pengenalan maksud — Menampilkan tabel berapa banyak intent yang berhasil dikenali. Menampilkan tingkat kelulusan transkripsi ucapan dan end-to-end percakapan.
Metrik resolusi slot — Menunjukkan maksud dan slot secara terpisah, dan tingkat keberhasilan dan kegagalan setiap slot untuk setiap maksud yang digunakan dalam percakapan atau input tunggal. Menampilkan tingkat kelulusan transkripsi ucapan dan end-to-end percakapan.
Tab hasil terperinci:
Hasil terperinci — Menampilkan tabel terperinci pada log percakapan dengan ucapan Pengguna dan Agen serta output yang diharapkan dan transkripsi yang diharapkan untuk setiap slot. Anda dapat mengunduh laporan ini dengan memilih tombol Unduh.
Tabel berikut mencantumkan pesan kesalahan kegagalan hasil dengan skenario.
Skenario | Pesan kesalahan | Tindakan |
---|---|---|
Ketidakcocokan Niat | BookFlight Niat yang diharapkan tetapi itu BookHotel niat. | Lewati belokan lain dalam percakapan |
Ketidakcocokan Elisitasi Slot | departureDate Slot yang diharapkan akan ditimbulkan tetapi memang begitu. cabinType | Lewati belokan lain dalam percakapan |
Ketidakcocokan nilai slot | Ketidakcocokan antara nilai slot yang diharapkan dan aktual. | Lanjutkan dengan belokan lain dalam percakapan |
Back-to-back prompt agen tidak ada | Bot yang diharapkan untuk mengembalikan prompt agen pada giliran ini tetapi tidak diterima. | Lewati belokan lain dalam percakapan |
Ketidakcocokan Transkripsi | Transkripsi yang diharapkan tidak cocok dengan transkripsi yang sebenarnya. | Lanjutkan dengan belokan lain dalam percakapan |
Slot opsional tidak ditimbulkan | Diharapkan untuk mendapatkan cabinType slot di giliran berikutnya, namun niat saat ini terpenuhi sebelum itu. | Lewati belokan lain dalam percakapan |
Slot tidak dikenali | departureDate Slot yang diharapkan tidak dikenali pada giliran ini. | Lewati belokan lain dalam percakapan |
Prompt back-to-back agen tambahan | Diharapkan giliran pengguna tetapi itu adalah prompt agen | Lewati belokan lain dalam percakapan |