Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)

Modo de foco

Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console) - Amazon Bedrock

É possível analisar as métricas apresentadas em um relatório para um trabalho automático de avaliação de modelo usando o console do Amazon Bedrock.

No boletim da avaliação de modelo, você verá o número total de prompts no conjunto de dados que forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada, verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Somente as respostas do modelo serão usadas nos cálculos das métricas.

Use o procedimento a seguir para analisar um trabalho automático de avaliação de modelo no console do Amazon Bedrock.

Abra o console do Amazon Bedrock.
No painel de navegação, selecione Avaliação de modelos.
Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação automatizada de modelo que você deseja revisar. Selecione-o.

Em todas as métricas relacionadas à robustez semântica, o Amazon Bedrock perturba os prompts das seguintes maneiras: converte texto para que fique todo em letras minúsculas, insere erros de digitação, converte números em palavras, faz alterações aleatórias para letras maiúsculas e adiciona/exclui espaços em branco aleatoriamente.

Depois de abrir o relatório da avaliação de modelo, você poderá ver as métricas resumidas e o Resumo da configuração do trabalho.

Para cada métrica e conjunto de dados de prompts especificados quando o trabalho foi criado, você vê um cartão e um valor para cada conjunto de dados especificado para essa métrica. A forma como esse valor é calculado muda com base no tipo de tarefa e nas métricas selecionadas.

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral

Precisão: para essa métrica, o valor é calculado usando a pontuação de conhecimento do mundo real (pontuação RWK). A pontuação RWK examina a capacidade do modelo de codificar o conhecimento factual sobre o mundo real. Uma pontuação RWK alta indica que o modelo está sendo preciso.
Robustez: para essa métrica, o valor é calculado usando a robustez semântica. Esse cálculo se baseia na taxa de palavras erradas. A robustez semântica mede o quanto a saída do modelo muda como resultado de pequenas perturbações de preservação semântica na entrada. A robustez a tais perturbações é uma propriedade desejável e, portanto, uma baixa pontuação de robustez semântica indica que o modelo está funcionando bem.

Os tipos de perturbação que consideraremos são: conversão de texto para que fique todo em letras minúsculas, erros de digitação, conversão de números em palavras, alterações aleatórias para letras maiúsculas e adição/exclusão aleatória de espaços em branco. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto

Precisão: para essa métrica, o valor é calculado usando a BERT Score. A BERT Score é calculada usando incorporações contextuais pré-treinadas de modelos BERT. Ela combina palavras em frases candidatas e de referência usando similaridade por cosseno.
Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (Delta BERTScore /BERTScore) x 100. Delta BERTScore é a diferença nas pontuações do BERT entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas

Precisão: para essa métrica, o valor calculado é a pontuação F1. A pontuação F1 é calculada dividindo a pontuação de precisão (a proporção de previsões corretas para todas as previsões) pela pontuação de recall (a proporção de previsões corretas em relação ao número total de previsões relevantes). A pontuação F1 varia de 0 a 1, com valores mais altos indicando melhor performance.
Robustez: para essa métrica, o valor calculado é uma porcentagem. Ela é calculada pela fórmula (Delta F1/F1) x 100. Delta F1 é a diferença em F1 Scores entre um prompt perturbado e o prompt original no conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto

Precisão: para essa métrica, o valor calculado é a precisão. Precisão é uma pontuação que compara a classe prevista com seu rótulo real. Uma precisão mais alta indica que o modelo está classificando corretamente o texto com base no rótulo real fornecido.
Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculada pela fórmula (delta da pontuação de precisão da classificação/pontuação de precisão da classificação) x 100. O delta da pontuação da precisão da classificação é a diferença entre a pontuação de precisão da classificação do prompt perturbado e do prompt de entrada original. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Relatórios e métricas para avaliação de modelo

Analisar um trabalho de avaliação de modelo humano

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto

Related resources

Esta página foi útil?

Related resources

Próximo tópico:

Tópico anterior:

Precisa de ajuda?