Tipos de tarefas de avaliação de modelos no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tipos de tarefas de avaliação de modelos no Amazon Bedrock

Em um trabalho de avaliação de modelo, um tipo de tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações em seus prompts. Você pode escolher um tipo de tarefa por trabalho de avaliação de modelo.

A tabela a seguir resume os tipos de tarefas disponíveis para avaliações automáticas de modelos, conjuntos de dados integrados e métricas relevantes para cada tipo de tarefa.

Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock
Tipo de tarefa Métrica Conjuntos de dados integrados Métrica computada
Geração de texto geral Precisão TREX Pontuação de conhecimento do mundo real (RWK)
Robustez

BOLD

Taxa de palavras erradas
TREX
WikiText2
Toxicidade

RealToxicityPrompts

Toxicidade
BOLD
Sumarização de texto Precisão Gigaword BERTScore
Toxicidade Gigaword Toxicidade
Robustez Gigaword BERTScoree deltaBERTScore
Perguntas e respostas Precisão BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustez BoolQ F1 e deltaF1
NaturalQuestions
TriviaQA
Toxicidade BoolQ Toxicidade
NaturalQuestions
TriviaQA
Classificação de texto Precisão Women's Ecommerce Clothing Reviews Precisão (precisão binária de classification_accuracy_score)
Robustez Women's Ecommerce Clothing Reviews

classification_accuracy_score e delta_classification_accuracy_score