Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)

Modo de foco
Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console) - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

É possível analisar as métricas apresentadas em um relatório para um trabalho automático de avaliação de modelo usando o console do Amazon Bedrock.

No boletim da avaliação de modelo, você verá o número total de prompts no conjunto de dados que forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada, verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Somente as respostas do modelo serão usadas nos cálculos das métricas.

Use o procedimento a seguir para analisar um trabalho automático de avaliação de modelo no console do Amazon Bedrock.

  1. Abra o console do Amazon Bedrock.

  2. No painel de navegação, selecione Avaliação de modelos.

  3. Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação automatizada de modelo que você deseja revisar. Selecione-o.

Em todas as métricas relacionadas à robustez semântica, o Amazon Bedrock perturba os prompts das seguintes maneiras: converte texto para que fique todo em letras minúsculas, insere erros de digitação, converte números em palavras, faz alterações aleatórias para letras maiúsculas e adiciona/exclui espaços em branco aleatoriamente.

Depois de abrir o relatório da avaliação de modelo, você poderá ver as métricas resumidas e o Resumo da configuração do trabalho.

Para cada métrica e conjunto de dados de prompts especificados quando o trabalho foi criado, você vê um cartão e um valor para cada conjunto de dados especificado para essa métrica. A forma como esse valor é calculado muda com base no tipo de tarefa e nas métricas selecionadas.

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral
  • Precisão: para essa métrica, o valor é calculado usando a pontuação de conhecimento do mundo real (pontuação RWK). A pontuação RWK examina a capacidade do modelo de codificar o conhecimento factual sobre o mundo real. Uma pontuação RWK alta indica que o modelo está sendo preciso.

  • Robustez: para essa métrica, o valor é calculado usando a robustez semântica. Esse cálculo se baseia na taxa de palavras erradas. A robustez semântica mede o quanto a saída do modelo muda como resultado de pequenas perturbações de preservação semântica na entrada. A robustez a tais perturbações é uma propriedade desejável e, portanto, uma baixa pontuação de robustez semântica indica que o modelo está funcionando bem.

    Os tipos de perturbação que consideraremos são: conversão de texto para que fique todo em letras minúsculas, erros de digitação, conversão de números em palavras, alterações aleatórias para letras maiúsculas e adição/exclusão aleatória de espaços em branco. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto
  • Precisão: para essa métrica, o valor é calculado usando a BERT Score. A BERT Score é calculada usando incorporações contextuais pré-treinadas de modelos BERT. Ela combina palavras em frases candidatas e de referência usando similaridade por cosseno.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (Delta BERTScore /BERTScore) x 100. Delta BERTScore é a diferença nas pontuações do BERT entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas
  • Precisão: para essa métrica, o valor calculado é a pontuação F1. A pontuação F1 é calculada dividindo a pontuação de precisão (a proporção de previsões corretas para todas as previsões) pela pontuação de recall (a proporção de previsões corretas em relação ao número total de previsões relevantes). A pontuação F1 varia de 0 a 1, com valores mais altos indicando melhor performance.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. Ela é calculada pela fórmula (Delta F1/F1) x 100. Delta F1 é a diferença em F1 Scores entre um prompt perturbado e o prompt original no conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto
  • Precisão: para essa métrica, o valor calculado é a precisão. Precisão é uma pontuação que compara a classe prevista com seu rótulo real. Uma precisão mais alta indica que o modelo está classificando corretamente o texto com base no rótulo real fornecido.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculada pela fórmula (delta da pontuação de precisão da classificação/pontuação de precisão da classificação) x 100. O delta da pontuação da precisão da classificação é a diferença entre a pontuação de precisão da classificação do prompt perturbado e do prompt de entrada original. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.