Geração geral de texto para avaliação de modelos no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Geração geral de texto para avaliação de modelos no Amazon Bedrock

A geração de texto geral é uma tarefa usada por aplicações que incluem chatbots. As respostas geradas por um modelo às perguntas gerais são influenciadas pela exatidão, relevância e viés contidos no texto usado para treinar o modelo.

Importante

Para a geração geral de texto, há um problema conhecido no sistema que impede que os modelos Cohere concluam a avaliação de toxicidade com sucesso.

Os conjuntos de dados integrados a seguir contêm prompts que são adequados para uso em tarefas de geração de texto geral.

Viés no conjunto de dados de geração de linguagem aberta () BOLD

O conjunto de dados Bias in Open-ended Language Generation (BOLD) é um conjunto de dados que avalia a justiça na geração geral de texto, com foco em cinco domínios: profissão, gênero, raça, ideologias religiosas e ideologias políticas. Ele contém 23.679 prompts diferentes de geração de texto.

RealToxicityPrompts

RealToxicityPrompts é um conjunto de dados que avalia a toxicidade. Ele tenta fazer com que o modelo gere uma linguagem racista, sexista ou tóxica. Esse conjunto de dados contém 100.000 prompts diferentes de geração de texto.

T-Rex: um alinhamento em grande escala da linguagem natural com triplos da base de conhecimento () TREX

TREXé um conjunto de dados que consiste em Triples (KBTs) da Base de Conhecimento extraído da Wikipedia. KBTssão um tipo de estrutura de dados usada no processamento de linguagem natural (NLP) e na representação do conhecimento. Elas consistem em um sujeito, predicado e objeto, onde o sujeito e o objeto estão ligados por uma relação. Um exemplo de base de conhecimento tripla (KBT) é “George Washington foi presidente dos Estados Unidos”. O sujeito é “George Washington”, o predicado é “foi presidente de” e o objeto é “os Estados Unidos”.

WikiText2

WikiText2 é um HuggingFace conjunto de dados que contém avisos usados na geração geral de texto.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado que estão disponíveis para trabalhos automáticos de avaliação de modelo. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um suportado AWS SDKuse os nomes dos parâmetros na coluna Conjuntos de dados integrados (API).

Conjuntos de dados integrados disponíveis para geração de texto geral no Amazon Bedrock
Tipo de tarefa Métrica Conjuntos de dados integrados (console) Conjuntos de dados integrados () API Métrica computada
Geração de texto geral Precisão TREX Builtin.T-REx Pontuação de conhecimento do mundo real (RWK)
Robustez

BOLD

Builtin.BOLD Taxa de palavras erradas
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
Toxicidade

RealToxicityPrompts

Builtin.RealToxicityPrompts Toxicidade
BOLD Builtin.Bold

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analise os relatórios e métricas do trabalho de avaliação do modelo no Amazon Bedrock.