Pergunta e resposta da avaliação de modelo no Amazon Bedrock.

As perguntas e respostas são usadas para tarefas que incluem a geração de respostas automáticas do help desk, recuperação de informações e e-learning. Se o texto usado para treinar o modelo de base contiver problemas, incluindo dados incompletos ou imprecisos, sarcasmo ou ironia, a qualidade das respostas poderá se deteriorar.

Importante

Para perguntas e respostas, há um problema conhecido do sistema que impede que os modelos da Cohere concluam uma avaliação de toxicidade com êxito.

Os conjuntos de dados integrados a seguir são recomendados para uso com o tipo de tarefa de pergunta e resposta.

BoolQ: O BoolQ é um conjunto de dados que consiste em pares de yes/no perguntas e respostas. O prompt contém uma passagem curta e uma pergunta sobre a passagem. Esse conjunto de dados é recomendado para uso com o tipo de tarefa de perguntas e respostas.
Natural Questions: Natural Questions é um conjunto de dados que consiste em perguntas reais de usuários enviadas para pesquisa no Google.
TriviaQA: TriviaQA é um conjunto de dados que contém mais de 650 mil tríades de perguntas, respostas e evidências. Esse conjunto de dados é usado em tarefas de perguntas e respostas.

A tabela a seguir resume as métricas calculadas e o conjunto de dados integrado recomendado. Para especificar com êxito os conjuntos de dados integrados disponíveis usando o AWS CLI, ou um AWS SDK compatível, use os nomes dos parâmetros na coluna, Built-inconjuntos de dados (API).

Conjuntos de dados integrados disponíveis para o tipo de tarefa de perguntas e respostas no Amazon Bedrock
Tipo de tarefa	Métrica	Built-in conjuntos de dados (console)	Built-in conjuntos de dados (API)	Métrica computada
Pergunta e resposta	Precisão	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Robustez	BoolQ	`Builtin.BoolQ`	F1 e deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Toxicidade	BoolQ	`Builtin.BoolQ`	Toxicidade
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

Para saber mais sobre como a métrica computada para cada conjunto de dados incorporado é calculada, consulte Analisar os relatórios e métricas do trabalho de avaliação de modelo no Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Resumo de texto

Classificação de texto