Analise um trabalho de avaliação de modelo baseado em humanos no Amazon Bedrock (console) - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Analise um trabalho de avaliação de modelo baseado em humanos no Amazon Bedrock (console)

Você pode revisar os dados para avaliação humana apresentados em um relatório usando o console Amazon Bedrock.

No boletim da avaliação do modelo, você verá o número total de prompts no conjunto de dados que você forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada multiplicado pelo número de operadores por prompt que você configurou no trabalho (1, 2 ou 3), verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Além disso, um ou mais operadores podem ter se recusado a avaliar a resposta de saída do modelo. Somente as respostas dos operadores humanos serão usadas nos cálculos das métricas.

Use o procedimento a seguir para abrir uma avaliação de modelo que contou com a participação de operadores humanos no console do Amazon Bedrock.

  1. Abra o console do Amazon Bedrock.

  2. No painel de navegação, selecione Avaliação de modelos.

  3. Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação de modelo que você deseja revisar. Selecione-o.

O relatório da avaliação de modelo fornece insights sobre os dados coletados durante um trabalho de avaliação humana usando boletins. Cada boletim mostra a métrica, a descrição e o método de classificação acompanhados de uma visualização de dados que representa os dados coletados para a métrica específica.

Em cada uma das seções a seguir, você pode conferir exemplos dos cinco métodos de classificação possíveis que sua equipe de trabalho viu na interface de avaliação. Os exemplos também mostram qual par de chave e valor é usado para salvar os resultados no Amazon S3.

Escala Likert, comparação de várias saídas do modelo

Os avaliadores humanos indicam sua preferência entre as duas respostas do modelo em uma escala Likert de 5 pontos, de acordo com suas instruções. Os resultados no relatório final serão mostrados como um histograma das classificações de força de preferência dos avaliadores em todo o conjunto de dados.

Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas.

Esta é a minha imagem.
JSONsaída

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonLikertScale".

Botões de escolha (botão de opções)

Os botões de escolha permitem que um avaliador humano indique sua única resposta preferida em relação a outra resposta. Os avaliadores usam botões de opções para indicar sua preferência entre duas respostas de acordo com as instruções que você definiu. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique claramente o método de avaliação nas instruções.

Esta é a minha imagem.
JSONsaída

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonChoice".

Classificação ordinal

A classificação ordinal permite que um avaliador humano classifique suas respostas preferidas a um prompt, começando em 1, de acordo com as instruções definidas por você. Os resultados no relatório final serão mostrados como um histograma das classificações dos avaliadores em todo o conjunto de dados. Defina o que significa uma classificação 1 em suas instruções. Esse tipo de dado é chamado de classificação de preferência.

Esta é a minha imagem.
JSONsaída

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonRank".

Polegar para cima/para baixo

O polegar para cima/para baixo permite que um avaliador humano classifique cada resposta de um modelo como aceitável/inaceitável de acordo com as instruções definidas por você. Os resultados no relatório final serão mostrados como uma porcentagem do número total de classificações dos avaliadores que receberam uma avaliação positiva (polegar para cima) para cada modelo. Você pode usar esse método de classificação em um trabalho de avaliação de modelo que contenha um ou mais modelos. Se você usar isso em uma avaliação que contém dois modelos, um polegar para cima/para baixo será apresentado à equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é aceitável (ou seja, o que é uma avaliação positiva) em suas instruções.

Esta é a minha imagem.
JSONsaída

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "thumbsUpDown".

Escala Likert, avaliação de uma resposta de um único modelo

Permite que um avaliador humano indique com que intensidade aprovou a resposta do modelo com base em suas instruções em uma escala Likert de cinco pontos. Os resultados no relatório final serão mostrados como um histograma das classificações de cinco pontos dos avaliadores em todo o conjunto de dados. Você pode usar isso em uma avaliação que contém um ou mais modelos. Se você selecionar esse método de classificação para uma avaliação que contém mais de um modelo, uma escala Likert de cinco pontos será apresentada à equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas.

Esta é a minha imagem.
JSONsaída

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "individualLikertScale".