Analisar um trabalho de avaliação de modelo baseada em humanos no Amazon Bedrock (console) - Amazon Bedrock

Escala Likert, comparação de várias saídas do modelo Botões de escolha (botão de opção)Classificação ordinal Polegar para cima/para baixo Escala Likert, avaliação de uma resposta de um único modelo

Analisar um trabalho de avaliação de modelo baseada em humanos no Amazon Bedrock (console)

É possível revisar os dados para avaliação humana apresentados em um relatório usando o console do Amazon Bedrock.

No boletim da avaliação de modelo, você verá o número total de prompts no conjunto de dados que forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada multiplicado pelo número de operadores por prompt que você configurou no trabalho (1, 2 ou 3), verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Além disso, um ou mais operadores podem ter se recusado a avaliar a resposta de saída do modelo. Somente as respostas dos operadores humanos serão usadas nos cálculos das métricas.

Use o procedimento a seguir para abrir uma avaliação de modelo que contou com a participação de operadores humanos no console do Amazon Bedrock.

Abra o console do Amazon Bedrock.
No painel de navegação, selecione Avaliação de modelos.
Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação de modelo que você deseja revisar. Selecione-o.

O relatório da avaliação de modelo fornece insights sobre os dados coletados durante um trabalho de avaliação humana usando boletins. Cada boletim mostra a métrica, a descrição e o método de classificação acompanhados de uma visualização de dados que representa os dados coletados para a métrica específica.

Em cada uma das seções a seguir, é possível obter exemplos dos cinco métodos de classificação possíveis que sua equipe de trabalho viu na interface de avaliação. Os exemplos também mostram qual par de chave e valor é usado para salvar os resultados no Amazon S3.

Escala Likert, comparação de várias saídas do modelo

Os avaliadores humanos indicam sua preferência entre as duas respostas do modelo em uma escala Likert de cinco pontos, de acordo com as suas instruções. Os resultados no relatório final serão mostrados como um histograma das classificações de intensidade da preferência dos avaliadores em todo o conjunto de dados.

Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas.

Esta é a minha imagem.

Saída JSON

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonLikertScale".

Botões de escolha (botão de opção)

Os botões de escolha permitem que um avaliador humano indique sua única resposta preferida em relação a outra resposta. Os avaliadores usam botões de opções para indicar sua preferência entre duas respostas de acordo com as instruções que você definiu. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique claramente o método de avaliação nas instruções.

Esta é a minha imagem.

Saída JSON

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonChoice".

Classificação ordinal

A classificação ordinal permite que um avaliador humano classifique suas respostas preferidas a um prompt, começando em 1, de acordo com as instruções definidas por você. Os resultados no relatório final serão mostrados como um histograma das classificações dos avaliadores em todo o conjunto de dados. Defina o que significa uma classificação 1 em suas instruções. Esse tipo de dado é chamado de classificação de preferência.

Esta é a minha imagem.

Saída JSON

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "comparisonRank".

Polegar para cima/para baixo

Os polegares up/down allows a human evaluator to rate each response from a model as acceptable/unacceptable according to your instructions. The results in the final report will be shown as a percentage of the total number of ratings by evaluators that received a thumbs up rating for each model. You may use this rating method for a model evaluation job that contains one or more models. If you use this in an evaluation that contains two models, a thumbs up/down serão apresentados à sua equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é aceitável (ou seja, o que é uma avaliação positiva) em suas instruções.

Esta é a minha imagem.

Saída JSON

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "thumbsUpDown".

Escala Likert, avaliação de uma resposta de um único modelo

Permite que um avaliador humano indique com que intensidade aprovou a resposta do modelo com base em suas instruções em uma escala Likert de cinco pontos. Os resultados no relatório final serão mostrados como um histograma das classificações de cinco pontos dos avaliadores em todo o conjunto de dados. É possível usar isso em uma avaliação que contém um ou mais modelos. Se você selecionar esse método de classificação para uma avaliação que contém mais de um modelo, uma escala Likert de cinco pontos será apresentada à equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas.

Esta é a minha imagem.

Saída JSON

A primeira chave filha em evaluationResults é onde o método de classificação selecionado é retornado. No arquivo de saída salvo no bucket do Amazon S3, os resultados de cada operador são salvos no par de chave e valor "evaluationResults": "individualLikertScale".

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Analisar as métricas de um trabalho automatizado de avaliação de modelo

Compreender a saída do Amazon S3 de um trabalho de avaliação de modelo