Dettagli dei risultati del test in Test Workbench

I risultati del test mostrano i dettagli del set di test, gli intenti utilizzati e gli slot utilizzati. Fornisce inoltre la suddivisione complessiva degli input del set di test, che include i risultati complessivi, i risultati della conversazione, l'intento e i risultati degli slot.

I risultati dei test comprendono tutte le informazioni relative ai test, come:

Dettagli del test (metadati)
Risultati complessivi
Risultati della conversazione
Intento e risultati degli slot
Risultati dettagliati

Scheda dei risultati complessivi:

Il set di test inserisce il grafico di suddivisione nei risultati del test utilizzando il Test Workbench.

Suddivisione dell'input del set di test: questo grafico mostra la suddivisione del numero di conversazioni e delle singole espressioni di input nel set di test.

La tabella di ripartizione a input singolo nei risultati dei test utilizzando il Test Workbench.

Suddivisione in input singolo: visualizza due grafici che includono end-to-end conversazioni e trascrizioni vocali. Il numero di input passati e non riusciti è indicato su ogni grafico. Nota: la tabella di trascrizione vocale sarà visibile solo per il set di test audio.

La tabella di suddivisione delle conversazioni nei risultati dei test utilizzando Test Workbench.

Suddivisione delle conversazioni: visualizza due grafici che includono end-to-end conversazioni e trascrizioni vocali. Il numero di input passati e non riusciti è indicato su ogni grafico. Nota: la tabella di trascrizione vocale sarà visibile solo per il set di test audio.

Scheda dei risultati della conversazione:

Il grafico delle percentuali di superamento delle conversazioni nei risultati dei test utilizzando Test Workbench.

Percentuali di successo delle conversazioni: la tabella delle percentuali di successo delle conversazioni viene utilizzata per vedere quali intenti e quali intervalli vengono utilizzati in ciascuna conversazione del set di test. Puoi visualizzare dove la conversazione ha avuto esito negativo esaminando quali intenti o slot hanno avuto esito negativo, oltre alla percentuale di successo di ogni intento e slot.

Le metriche relative al fallimento delle intenzioni di conversazione sono riportate nei risultati dei test utilizzando Test Workbench.

Metriche del fallimento dell'intento di conversazione: questa metrica mostra i 5 intenti con le peggiori prestazioni nel set di test. Questo pannello mostra un grafico della percentuale o del numero di intenti che hanno avuto successo o meno, in base ai registri delle conversazioni o alla trascrizione del bot. Un intento riuscito non significa che l'intera conversazione abbia avuto successo. Queste metriche si applicano solo al valore degli intenti, indipendentemente dall'intento precedente o successivo.

Le metriche relative agli errori degli slot Conversation vengono visualizzate nei risultati dei test utilizzando Test Workbench.

Metriche degli errori negli slot di conversazione: questa metrica mostra i 5 slot con le prestazioni peggiori nel set di test. Indicava la percentuale di successo per ogni slot nell'intento. Il grafico a barre mostra sia la trascrizione del parlato che le end-to-end conversazioni per ogni slot dell'intento.

Scheda dei risultati degli intenti e degli slot:

Il grafico delle metriche di riconoscimento degli intenti nei risultati dei test utilizzando Test Workbench.

Metriche di riconoscimento degli intenti: mostra una tabella di quanti intenti sono stati riconosciuti con successo. Visualizza la velocità di superamento della trascrizione vocale e delle conversazioni. end-to-end

Il grafico delle metriche di risoluzione degli slot nei risultati dei test utilizzando Test Workbench.

Metriche di risoluzione degli slot: mostra gli intenti e gli slot separatamente e la percentuale di successo e fallimento di ogni slot per ogni intento utilizzato nella conversazione o nel singolo input. Visualizza la velocità di superamento della trascrizione vocale e delle conversazioni. end-to-end

Scheda dettagliata dei risultati:

I risultati dettagliati nei risultati dei test utilizzando il Test Workbench.

Risultati dettagliati: mostra una tabella dettagliata nel registro delle conversazioni con gli enunciati di utenti e agenti e l'output e la trascrizione previsti per ogni slot. Puoi scaricare questo rapporto selezionando il pulsante Download.

La tabella seguente elenca i risultati, i messaggi di errore relativi agli errori con gli scenari.

Scenario	Messaggio di errore	Azione
Mancata corrispondenza degli intenti	BookFlight Intento previsto ma era intento. BookHotel	Salta gli altri turni della conversazione
Mancata corrispondenza tra Slot Elicitation	Era previsto che venisse generato lo slot DepartureDate, ma era CabinType.	Salta gli altri turni della conversazione
Mancata corrispondenza del valore dello slot	Mancata corrispondenza tra il valore dello slot previsto e quello effettivo.	Continua con gli altri turni delle conversazioni
Back-to-back manca il prompt dell'agente	Si aspettava che il bot restituisse una richiesta dell'agente in questo turno, ma non è stata ricevuta.	Salta gli altri turni della conversazione
Mancata corrispondenza nella trascrizione	La trascrizione prevista non corrisponde alla trascrizione effettiva.	Continua con altri turni nelle conversazioni
Slot opzionale non attivato	Ci si aspettava che venisse generato lo slot CabinType nel prossimo turno, tuttavia l'intento attuale era stato raggiunto prima.	Salta gli altri turni della conversazione
Slot non riconosciuto	Lo slot DepartureDate previsto non è stato riconosciuto in questo turno.	Salta gli altri turni della conversazione
Richiesta aggiuntiva per back-to-back l'agente	Era previsto il turno di un utente, ma era richiesto dall'agente	Salta gli altri turni della conversazione

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visualizza i risultati del test

Conversazioni in streaming sul tuo bot Lex V2