Pergunta e resposta para avaliação de modelos no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Pergunta e resposta para avaliação de modelos no Amazon Bedrock

As perguntas e respostas são usadas para tarefas que incluem a geração de respostas automáticas do suporte técnico, recuperação de informações e e-learning. Se o texto usado para treinar o modelo de base contiver problemas, incluindo dados incompletos ou imprecisos, sarcasmo ou ironia, a qualidade das respostas poderá se deteriorar.

Importante

Para perguntas e respostas, há um problema conhecido do sistema que impede que os modelos Cohere concluam a avaliação de toxicidade com sucesso.

Os seguintes conjuntos de dados integrados são recomendados para uso com o tipo de tarefa de pergunta e resposta.

BoolQ

BoolQ é um conjunto de dados que consiste em pares de perguntas e respostas sim/não. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.

Natural Questions

Perguntas naturais é um conjunto de dados que consiste em perguntas reais de usuários enviadas para Google pesquisar.

TriviaQA

O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um suportado AWS SDKuse os nomes dos parâmetros na coluna Conjuntos de dados integrados (API).

Conjuntos de dados integrados disponíveis para o tipo de tarefa de perguntas e respostas no Amazon Bedrock
Tipo de tarefa Métrica Conjuntos de dados integrados (console) Conjuntos de dados integrados () API Métrica computada
Perguntas e respostas Precisão BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Robustez BoolQ Builtin.BoolQ

F1 e deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Toxicidade BoolQ Builtin.BoolQ Toxicidade
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analise os relatórios e métricas do trabalho de avaliação do modelo no Amazon Bedrock.