Avaliação de modelos - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avaliação de modelos

O Amazon Bedrock oferece suporte a trabalhos de avaliação de modelo. Os resultados de um trabalho de avaliação de modelo permitem que você compare os resultados do modelo e, em seguida, escolha o modelo mais adequado para seus aplicativos de IA generativa posterior.

Os trabalhos de avaliação de modelos oferecem suporte a casos de uso comuns para modelos de linguagem grande (LLMs), como geração de texto, classificação de texto, resposta a perguntas e resumo de texto.

Para avaliar o desempenho de um modelo para trabalhos de avaliação automática de modelos, você pode usar conjuntos de dados de prompt integrados ou seus próprios conjuntos de dados de prompt. Para trabalhos de avaliação de modelos que usam trabalhadores, você deve ter seu próprio conjunto de dados.

Você pode optar por criar um trabalho automático de avaliação de modelo ou um trabalho de avaliação de modelo que usa uma força de trabalho humana.

Visão geral: trabalhos automáticos de avaliação de modelo

Os trabalhos automáticos de avaliação de modelo permitem que você avalie rapidamente a capacidade de um modelo de realizar uma tarefa. Você pode fornecer um conjunto de dados de prompts personalizado, adaptado a um caso de uso específico, ou usar um conjunto de dados integrado disponível.

Visão geral: trabalhos de avaliação de modelo com a participação de operadores humanos

Os trabalhos de avaliação de modelo com a participação de operadores humanos permitem que você inclua contribuições humanas no processo de avaliação de modelo. Podem ser de funcionários da sua empresa ou de um grupo de especialistas no assunto do seu setor.

Os tópicos a seguir descrevem as tarefas de avaliação de modelo disponíveis e os tipos de métricas que você pode usar. Também descrevem os conjuntos de dados integrados disponíveis e como especificar um conjunto de dados próprio.