Avalie o desempenho dos recursos do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avalie o desempenho dos recursos do Amazon Bedrock

nota

Os trabalhos de avaliação de modelos que usam um modelo de juiz e os trabalhos de avaliação do Amazon Bedrock Knowledge Bases estão em pré-visualização.

Use as avaliações do Amazon Bedrock para avaliar o desempenho e a eficácia dos modelos e bases de conhecimento do Amazon Bedrock. O Amazon Bedrock pode computar métricas de desempenho, como a robustez semântica de um modelo e a exatidão de uma base de conhecimento na recuperação de informações e na geração de respostas. Para avaliações de modelos, você também pode aproveitar uma equipe de trabalhadores humanos para avaliar e fornecer suas opiniões para a avaliação.

Avaliações automáticas, incluindo avaliações que utilizam Large Language Models (LLMs), produzem pontuações e métricas computadas que ajudam você a avaliar a eficácia de um modelo e de uma base de conhecimento. As avaliações baseadas em humanos usam uma equipe de pessoas que fornecem suas classificações e preferências em relação a determinadas métricas.

Visão geral: trabalhos automáticos de avaliação de modelo

Os trabalhos automáticos de avaliação de modelo permitem que você avalie rapidamente a capacidade de um modelo de executar realizar uma tarefa. É possível fornecer um conjunto de dados de prompts personalizado, adaptado a um caso de uso específico, ou usar um conjunto de dados integrado disponível.

Visão geral: trabalhos de avaliação de modelo com a participação de operadores humanos

Os trabalhos de avaliação de modelo com a participação de operadores humanos permitem que você inclua contribuições humanas no processo de avaliação de modelo. Eles podem ser funcionários da sua empresa ou um grupo de especialistas no assunto do setor.

Visão geral: trabalhos de avaliação de modelos que usam um modelo de juiz

Os trabalhos de avaliação de modelos que usam um modelo de juiz permitem que você avalie rapidamente as respostas de um modelo usando um segundoLLM. O segundo LLM pontua a resposta e fornece uma explicação para cada resposta.

Visão geral das avaliações da base de conhecimento que usam modelos de linguagem grande () LLMs

LLMavaliações baseadas computam métricas de desempenho para a base de conhecimento. As métricas revelam se uma base de conhecimento é capaz de recuperar informações altamente relevantes e gerar respostas úteis e apropriadas. Você fornece um conjunto de dados que contém as solicitações ou consultas do usuário para avaliar como uma base de conhecimento recupera informações e gera respostas para as consultas dadas. O conjunto de dados também deve incluir a “verdade fundamental” ou os textos e respostas recuperados esperados para as consultas, para que a avaliação possa verificar se sua base de conhecimento está alinhada com o esperado.

Use o tópico a seguir para saber mais sobre como criar seu primeiro trabalho de avaliação de modelo.

Para criar um trabalho de avaliação de modelo, você deve ter acesso a pelo menos um modelo do Amazon Bedrock. Suporte a trabalhos de avaliação de modelos usando os seguintes tipos de modelos:

  • Modelos de base

  • Modelos do Amazon Bedrock Marketplace

  • Modelos de fundação personalizados

  • Modelos de fundação importados

  • Roteadores Prompt

  • Modelos que você adquiriu Provisioned Throughput