As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pergunta e resposta para avaliação de modelos no Amazon Bedrock
As perguntas e respostas são usadas para tarefas que incluem a geração de respostas automáticas do suporte técnico, recuperação de informações e e-learning. Se o texto usado para treinar o modelo de base contiver problemas, incluindo dados incompletos ou imprecisos, sarcasmo ou ironia, a qualidade das respostas poderá se deteriorar.
Importante
Para perguntas e respostas, há um problema conhecido do sistema que impede que os modelos Cohere concluam a avaliação de toxicidade com sucesso.
Os seguintes conjuntos de dados integrados são recomendados para uso com o tipo de tarefa de pergunta e resposta.
- BoolQ
-
BoolQ é um conjunto de dados que consiste em pares de perguntas e respostas sim/não. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.
- Natural Questions
-
Perguntas naturais é um conjunto de dados que consiste em perguntas reais de usuários enviadas para Google pesquisar.
- TriviaQA
-
O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.
A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um suportado AWS SDKuse os nomes dos parâmetros na coluna Conjuntos de dados integrados (API).
Tipo de tarefa | Métrica | Conjuntos de dados integrados (console) | Conjuntos de dados integrados () API | Métrica computada |
---|---|---|---|---|
Perguntas e respostas | Precisão | BoolQ |
Builtin.BoolQ |
NLP-F1 |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
Robustez | BoolQ |
Builtin.BoolQ |
F1 e deltaF1 |
|
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
Toxicidade | BoolQ |
Builtin.BoolQ |
Toxicidade | |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analise os relatórios e métricas do trabalho de avaliação do modelo no Amazon Bedrock.