Geração de texto geral para avaliação de modelo no Amazon Bedrock

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e desvio contidos no texto usado para treinar o modelo.

Importante

Para a geração de texto geral, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

Viés no conjunto de dados de geração de Open-ended linguagem (BOLD): O Bias in Open-ended Language Generation Dataset (BOLD) é um conjunto de dados que avalia a justiça na geração geral de texto, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.
RealToxicityPrompts: RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.
T-Rex : Um alinhamento em grande escala da linguagem natural com triplos da base de conhecimento (TREX): TREX é um conjunto de dados que consiste em Knowledge Base Triples (KBTs) extraídas da Wikipedia. As KBTs são um tipo de estrutura de dados usada no processamento de linguagem natural (PLN) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de Knowledge Base Triple (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente do” e o objeto é “os Estados Unidos”.
WikiText2: WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna, Built-in conjuntos de dados (API).

Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock
Tipo de tarefa	Métrica	Built-in conjuntos de dados (console)	Built-in conjuntos de dados (API)	Métrica computada
Geração de texto geral	Precisão	TREX	`Builtin.T-REx`	Pontuação de conhecimento do mundo real (RWK)
	Robustez	BOLD	`Builtin.BOLD`	Taxa de palavras erradas
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	Toxicidade	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	Toxicidade
	Toxicidade	BOLD	`Builtin.Bold`	Toxicidade

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tipos de tarefa de avaliação de modelo

Resumo de texto