As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Detalhes dos resultados do teste no Test Workbench
Os resultados do teste mostram os detalhes do conjunto de testes, as intenções usadas e os slots usados. Ele também fornece o detalhamento geral das entradas do conjunto de teste, incluindo os resultados gerais, os resultados da conversa, a intenção e os resultados do slot.
Os resultados do teste incluem todas as informações relacionadas ao teste, como:
-
Metadados de detalhes do teste
-
Resultados gerais
-
Resultados da conversa
-
Intenção e resultados do slot
-
Resultados detalhados
Guia de resultados gerais:
Detalhamento da entrada do conjunto de teste – Este gráfico mostra o detalhamento do número de conversas e enunciados de entrada única no conjunto de teste.
Detalhamento de entrada única — Exibe dois gráficos que incluem end-to-end conversas e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.
Detalhamento da conversa — Exibe dois gráficos que incluem end-to-end conversas e transcrições de discursos. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.
Guia de resultados da conversa:
Taxas de aprovação da conversa – A tabela de taxas de aprovação da conversa é usada para ver quais intenções e slots são usados em cada conversa no conjunto de teste. Você pode visualizar onde a conversa falhou analisando qual intenção ou slot falhou, junto com a porcentagem de aprovação de cada intenção e slot.
Métricas de falha de intenção de conversa – Essa métrica mostra as 5 intenções com pior desempenho no conjunto de teste. Esse painel mostra um gráfico de qual porcentagem ou número de intenções foram bem-sucedidas ou falhas com base nos logs de conversas ou na transcrição do bot. Uma intenção bem-sucedida não significa que toda a conversa foi bem-sucedida. Essas métricas aplicam-se apenas ao valor das intenções, independentemente de qual intenção veio antes ou depois.
Métricas de falha de slot de conversa – Essa métrica mostra as 5 slots com pior desempenho no conjunto de teste. Indicou a taxa de sucesso de cada slot na intenção. O gráfico de barras mostra a transcrição da fala e end-to-end as conversas para cada espaço na intenção.
Guia de resultados de intenção e slot:
Métricas de reconhecimento de intenção – Mostra uma tabela de quantas intenções foram reconhecidas com sucesso. Exibe a taxa de aprovação da transcrição da fala e end-to-end das conversas.
Métricas de resolução de slots – Mostra as intenções e os slots separadamente e a taxa de sucesso e falha de cada slot para cada intenção usada na conversa ou em uma única entrada. Exibe a taxa de aprovação da transcrição da fala e end-to-end das conversas.
Guia de resultados detalhados:
Resultados detalhados – Mostra uma tabela detalhada no log de conversas com os enunciados do usuário e do agente e a saída esperada e a transcrição esperadas para cada slot. Você pode baixar esse relatório selecionando o botão Download.
A seguinte tabela lista as mensagens de erro de falha no resultado com cenários.
Cenário | Mensagem de erro | Ação |
---|---|---|
Incompatibilidade de intenções | BookFlight Intenção esperada, mas era BookHotel intenção. | Ignorar outros turnos na conversa |
Incompatibilidade de elicitação de slots | Esperava-se que o departureDate slot fosse obtido, mas foi. cabinType | Ignorar outros turnos na conversa |
Incompatibilidade do valor do slot | Incompatibilidade entre o valor esperado e o real do slot. | Continuar com outros turnos nas conversas |
Back-to-back falta o prompt do agente | Esperava que o bot retornasse uma solicitação do agente neste turno, mas ela não foi recebida. | Ignorar outros turnos na conversa |
Incompatibilidade de transcrição | A transcrição esperada não correspondeu à transcrição real. | Continuar com outros turnos nas conversas |
Slot opcional não elicitado | Espera-se que obtenha uma cabinType vaga no próximo turno, mas a intenção atual foi cumprida antes disso. | Ignorar outros turnos na conversa |
Slot não reconhecido | O departureDate slot esperado não foi reconhecido neste turno. | Ignorar outros turnos na conversa |
Solicitação adicional back-to-back do agente | Esperava o turno de um usuário, mas era um prompt do agente | Ignorar outros turnos na conversa |