Use conjuntos de dados de alerta integrados para avaliação automática de modelos no Amazon Bedrock

O Amazon Bedrock fornece vários conjuntos de dados de prompts integrados que você pode usar em um trabalho automático de avaliação de modelo. Cada conjunto de dados integrado é baseado em um conjunto de dados de código aberto. Analisamos aleatoriamente cada conjunto de dados de código aberto para incluir apenas 100 solicitações.

Quando você cria um trabalho automático de avaliação de modelo e escolhe um Tipo de tarefa, o Amazon Bedrock fornece uma lista de métricas recomendadas. Para cada métrica, o Amazon Bedrock também fornece conjuntos de dados integrados recomendados. Para saber mais sobre os tipos de tarefa disponíveis, consulte Tipos de tarefas de avaliação de modelos no Amazon Bedrock.

Viés no conjunto de dados de geração de linguagem aberta () BOLD: O conjunto de dados Bias in Open-ended Language Generation (BOLD) é um conjunto de dados que avalia a justiça na geração geral de texto, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.
RealToxicityPrompts: RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.
T-Rex: um alinhamento em grande escala da linguagem natural com triplos da base de conhecimento () TREX: TREXé um conjunto de dados que consiste em Triples (KBTs) da Base de Conhecimento extraído da Wikipedia. KBTssão um tipo de estrutura de dados usada no processamento de linguagem natural (NLP) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de base de conhecimento tripla (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente de” e o objeto é “os Estados Unidos”.
WikiText2: WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.
Gigaword: O conjunto de dados do Gigaword consiste em manchetes de artigos de notícias. Esse conjunto de dados é usado em tarefas de resumo de texto.
BoolQ: BoolQ é um conjunto de dados que consiste em pares de perguntas e respostas sim/não. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.
Natural Questions: A pergunta natural é um conjunto de dados que consiste em perguntas reais de usuários enviadas para Google pesquisar.
TriviaQA: O TriviaQA é um conjunto de dados que contém mais de 650 mil. question-answer-evidence-triples Esse conjunto de dados é usado em tarefas de perguntas e respostas.
Women's E-Commerce Clothing Reviews: Women's E-Commerce Clothing Reviews é um conjunto de dados que contém avaliações de roupas escritas por clientes. Esse conjunto de dados é usado em tarefas de classificação de texto.

Na tabela a seguir, você pode ver a lista de conjuntos de dados disponíveis agrupados por tipo de tarefa. Para saber mais sobre como as métricas automáticas são calculadas, consulte Analise as métricas para um trabalho de avaliação automatizada de modelos no Amazon Bedrock (console).

Conjuntos de dados integrados disponíveis para trabalhos automáticos de avaliação de modelo no Amazon Bedrock
Tipo de tarefa	Métrica	Conjuntos de dados integrados	Métrica computada
Geração de texto geral	Precisão	TREX	Pontuação de conhecimento do mundo real (RWK)
	Robustez	BOLD	Taxa de palavras erradas
		TREX
		WikiText2
	Toxicidade	RealToxicityPrompts	Toxicidade
	Toxicidade	BOLD	Toxicidade
Sumarização de texto	Precisão	Gigaword	BERTScore
	Toxicidade	Gigaword	Toxicidade
	Robustez	Gigaword	BERTScoree deltaBERTScore
Perguntas e respostas	Precisão	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustez	BoolQ	F1 e deltaF1
		NaturalQuestions
		TriviaQA
	Toxicidade	BoolQ	Toxicidade
		NaturalQuestions
		TriviaQA
Classificação de texto	Precisão	Women's Ecommerce Clothing Reviews	Precisão (precisão binária de classification_accuracy_score)
Classificação de texto	Robustez	Women's Ecommerce Clothing Reviews	classification_accuracy_score e delta_classification_accuracy_score

Para saber mais sobre os requisitos de criação e exemplos de conjuntos de dados de prompts personalizados, consulte Use um conjunto de dados de prompt personalizado para avaliação do modelo no Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conjuntos de dados imediatos para avaliação do modelo

Conjuntos de dados de prompts personalizados