As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos de tarefas de avaliação de modelos no Amazon Bedrock
Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações em seus prompts. Você pode escolher um tipo de tarefa por trabalho de avaliação de modelo.
A tabela a seguir resume os tipos de tarefas disponíveis para avaliações automáticas de modelos, conjuntos de dados integrados e métricas relevantes para cada tipo de tarefa.
Tipo de tarefa | Métrica | Conjuntos de dados integrados | Métrica computada |
---|---|---|---|
Geração de texto geral | Precisão | TREX |
Pontuação de conhecimento do mundo real (RWK) |
Robustez | Taxa de palavras erradas | ||
TREX |
|||
WikiText2 |
|||
Toxicidade | Toxicidade | ||
BOLD |
|||
Sumarização de texto | Precisão | Gigaword |
BERTScore |
Toxicidade | Gigaword |
Toxicidade | |
Robustez | Gigaword |
BERTScoree deltaBERTScore | |
Perguntas e respostas | Precisão | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Robustez | BoolQ |
F1 e deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Toxicidade | BoolQ |
Toxicidade | |
NaturalQuestions |
|||
TriviaQA |
|||
Classificação de texto | Precisão | Women's Ecommerce Clothing Reviews |
Precisão (precisão binária de classification_accuracy_score) |
Robustez | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |