Usando conjuntos de dados imediatos e dimensões de avaliação disponíveis em trabalhos de avaliação de modelos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando conjuntos de dados imediatos e dimensões de avaliação disponíveis em trabalhos de avaliação de modelos

As seções a seguir fornecem uma visão geral de como usar trabalhos de avaliação de modelos automáticos e baseados em humanos.

Tarefas de avaliação de modelo

Em um trabalho de avaliação de modelo, uma tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações encontradas nos prompts.

Você pode escolher um tipo de tarefa por trabalho de avaliação de modelo. Use as seções a seguir para saber mais sobre cada tipo de tarefa. Cada seção também inclui uma lista de conjuntos de dados integrados disponíveis e suas métricas correspondentes que podem ser usadas somente em trabalhos de avaliação automática de modelos.

Geração aberta

A geração de texto aberto é uma tarefa de modelo básico que gera respostas em linguagem natural para solicitações que não têm uma estrutura predefinida, como consultas de uso geral a um chatbot. Para geração de texto aberto, o Foundation Model Evaluations (FMEval) pode avaliar seu modelo de acordo com as seguintes dimensões.

  • Conhecimento factual — avalia o quão bem seu modelo codifica o conhecimento factual. FMEvalpode medir seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar um conjunto de dados integrado com base no TREXconjunto de dados de código aberto.

  • Robustez semântica — avalia o quanto a saída do modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. FMEvalmede como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.

  • Estereotipagem imediata — mede a probabilidade de seu modelo codificar vieses em sua resposta. Esses preconceitos incluem raça, gênero, orientação sexual, religião, idade, nacionalidade, deficiência, aparência física e status socioeconômico. FMEvalpode medir as respostas do seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar um conjunto de dados integrado com base no CrowS-Pairsconjunto de dados de desafios de código aberto.

  • Toxicidade — Avalia o texto usando modelos de detecção de toxicidade. FMEvalverifica seu modelo em busca de referências sexuais, comentários rudes, irracionais, odiosos ou agressivos, palavrões, insultos, flertes, ataques a identidades e ameaças. FMEvalpode medir seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no RealToxicityPrompts, RealToxicityPromptsChallenging, e BOLDconjuntos de dados.

    RealToxicityPromptsChallenging é um subconjunto de RealToxicityPrompts que é usado para testar os limites de um modelo de linguagem grande (LLM). Ele também identifica áreas LLMs vulneráveis à geração de texto tóxico.

    Você pode avaliar seu modelo com os seguintes detectores de toxicidade:

Sumarização de texto

O resumo de texto é usado para tarefas, como criar resumos de notícias, documentos jurídicos, trabalhos acadêmicos, visualizações de conteúdo e curadoria de conteúdo. O seguinte pode influenciar a qualidade das respostas: ambigüidade, coerência, viés, fluência do texto usado para treinar o modelo básico e perda de informações, precisão, relevância ou incompatibilidade de contexto. FMEvalpode avaliar seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no Government Report Dataset, e Gigawordconjuntos de dados. Para resumir o texto, FMEval pode avaliar seu modelo para o seguinte:

  • Precisão — Uma pontuação numérica que indica a semelhança do resumo com um resumo de referência que é aceito como padrão-ouro. Uma pontuação numérica alta indica que o resumo é de alta qualidade. Uma pontuação numérica baixa indica um resumo ruim. As métricas a seguir são usadas para avaliar a precisão de um resumo:

    • ROUGE-N— Computadores N-gram sobreposições entre a referência e o resumo do modelo.

    • Meteor— Calcula a sobreposição de palavras entre a referência e o resumo do modelo, além de contabilizar a reformulação.

    • BERTScore— Calcula e compara a incorporação de frases para o resumo e a referência. FMEvalusa os deberta-xlarge-mnli modelos roberta-large-mnliou microsoft/ para calcular as incorporações.

  • Toxicidade — Pontuações para resumos gerados que são calculados usando um modelo de detector de toxicidade. Para obter informações adicionais, consulte a seção Toxicidade na seção anterior para a tarefa de geração aberta para obter detalhes.

  • Robustez semântica — Uma medida de quanto a qualidade do resumo do texto do seu modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. Exemplos dessas alterações incluem erros de digitação, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica usa a diferença absoluta de precisão entre um resumo de texto que não é perturbado e outro que está perturbado. O algoritmo de precisão usa o ROUGE-N, Meteor, e BERTScoremétricas, conforme detalhado anteriormente nesta seção.

Respostas a perguntas

A resposta a perguntas é usada para tarefas como gerar respostas automáticas de suporte técnico, recuperação de informações e e-learning. FMEvalpode avaliar seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no BoolQ, TriviaQA, e Natural Questionsconjuntos de dados. Para responder perguntas, FMEval pode avaliar seu modelo para o seguinte:

  • Precisão — Uma pontuação média comparando a resposta gerada com os pares de perguntas e respostas fornecidos nas referências. A média da pontuação é calculada a partir dos seguintes métodos:

    • Correspondência exata — Uma pontuação binária de 1 é atribuída a uma correspondência exata e de 0 outra forma.

    • Correspondência quase exata — Uma pontuação binária de 1 é atribuída a uma correspondência após a pontuação e os artigos gramaticais (como o, a e) terem sido removidos (normalização).

    • F1 sobre palavras — A pontuação F1, ou média harmônica de precisão e recordação entre a resposta normalizada e a referência. A pontuação F1 é igual a duas vezes a precisão multiplicada pelo recall dividido pela soma da precisão (P) e recall (R), ou F1 = (2*P*R)/(P + R).

      No cálculo anterior, a precisão é definida como o número de verdadeiros positivos (TP) dividido pela soma dos verdadeiros positivos e falsos positivos (FP), ou P = (TP)/(TP+FP).

      O recall é definido como o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos (FN), ou R = (TP)/(TP+FN).

      Uma pontuação mais alta em F1 sobre palavras indica respostas de maior qualidade.

  • Robustez semântica — Uma medida de quanto a qualidade do resumo do texto do seu modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. Exemplos dessas alterações incluem erros de digitação no teclado, conversão imprecisa de números em palavras, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica usa a diferença absoluta de precisão entre um resumo de texto que não é perturbado e outro que está perturbado. A precisão é medida usando correspondência exata, correspondência quase exata e F1 sobre palavras, conforme descrito anteriormente.

  • Toxicidade — As pontuações avaliam as respostas geradas usando um modelo de detector de toxicidade. Para obter informações adicionais, consulte a seção Toxicidade na seção anterior para a tarefa de geração aberta para obter detalhes.

Classificação

A classificação é usada para categorizar o texto em categorias predefinidas. As aplicações que usam classificação de texto incluem recomendação de conteúdo, detecção de spam, identificação de idioma e análise de tendências em mídias sociais. Dados desequilibrados, ambíguos e ruidosos, viés na rotulagem são alguns problemas que podem causar erros na classificação. FMEvalavalia seu modelo em relação a um conjunto de dados integrado com base no Women’s ECommerce Clothing Reviewsconjunto de dados e/ou em relação aos seus próprios conjuntos de dados imediatos para o seguinte.

  • Precisão — Uma pontuação que compara a classe prevista com seu rótulo. A precisão é medida usando as seguintes métricas:

    • Precisão da classificação — Uma pontuação binária para determinar 1 se o rótulo previsto é igual ao rótulo verdadeiro ou não. 0

    • Precisão — A proporção entre os verdadeiros positivos e todos os positivos, calculada em todo o conjunto de dados. A precisão é uma medida apropriada quando a redução de falsos positivos é importante. A pontuação de cada ponto de dados pode ser agregada usando os seguintes valores para o multiclass_average_strategy parâmetro. Cada parâmetro está listado no exemplo a seguir.

    • Lembre-se — a proporção de verdadeiros positivos com a soma de verdadeiros positivos e falsos negativos, calculada em todo o conjunto de dados. O recall é uma medida apropriada quando a redução de falsos negativos é importante. As pontuações de cada ponto de dados podem ser agregadas usando os seguintes valores para o multiclass_average_strategy parâmetro.

      • micro(padrão) — A soma dos verdadeiros positivos dividida pela soma dos verdadeiros positivos e falsos negativos para todas as classes. Esse tipo de agregação fornece uma medida da precisão preditiva geral do seu modelo, considerando todas as classes igualmente. Por exemplo, essa agregação pode avaliar a capacidade do seu modelo de classificar corretamente pacientes com qualquer doença, incluindo doenças raras, porque dá peso igual a todas as classes.

      • macro— A soma dos valores de recall calculados para cada classe dividida pelo número de classes. Esse tipo de agregação fornece uma medida da precisão preditiva do seu modelo para cada classe, com peso igual para cada classe. Por exemplo, essa agregação pode avaliar a capacidade do seu modelo de prever todas as doenças, independentemente da prevalência ou raridade de cada condição.

      • samples(somente classificação multiclasse) — A razão entre a soma dos verdadeiros positivos em todas as amostras e a soma dos verdadeiros positivos e falsos negativos de todas as amostras. Para classificação multiclasse, uma amostra consiste em um conjunto de respostas previstas para cada classe. Esse tipo de agregação fornece uma medida granular do recall de cada amostra para problemas de várias classes. Por exemplo, como a agregação por amostras trata cada amostra igualmente, essa agregação pode avaliar a capacidade do seu modelo de prever um diagnóstico correto para um paciente com uma doença rara e, ao mesmo tempo, minimizar os falsos negativos.

      • weighted— O peso de uma classe multiplicado pelo recall da mesma classe, somado em todas as classes. Esse tipo de agregação fornece uma medida do recall geral, ao mesmo tempo em que acomoda diferentes importâncias entre as classes. Por exemplo, essa agregação pode avaliar a capacidade do seu modelo de prever um diagnóstico correto para um paciente e dar maior peso às doenças que ameaçam a vida.

      • binary— O recall calculado para a classe especificada pelo valorpos_label. Esse tipo de agregação ignora a classe não especificada e fornece precisão preditiva geral para uma única classe. Por exemplo, essa agregação pode avaliar a capacidade do seu modelo de rastrear uma população em busca de uma doença específica altamente contagiosa com risco de vida.

      • none— O recall calculado para cada turma. O recall específico da classe pode ajudá-lo a resolver os desequilíbrios de classe em seus dados quando a penalidade por erro varia significativamente entre as classes. Por exemplo, essa agregação pode avaliar o quão bem seu modelo pode identificar todos os pacientes que podem ter uma doença específica.

    • Precisão de classificação balanceada (BCA) — A soma do recall e da taxa negativa verdadeira dividida 2 pela classificação binária. A taxa de verdadeiros negativos é o número de verdadeiros negativos dividido pela soma dos verdadeiros negativos e falsos positivos. Para classificação multiclasse, BCA é calculado como a soma dos valores de recall para cada classe dividida pelo número de classes. BCApode ajudar quando a penalidade por prever falsos positivos e falsos negativos é alta. Por exemplo, BCA pode avaliar o quão bem seu modelo pode prever uma série de doenças letais altamente contagiosas com tratamentos intrusivos.

  • Robustez semântica — avalia o quanto a saída do modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. FMEvalmede a saída do modelo como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica pontua a diferença absoluta na precisão entre um resumo de texto que não é perturbado e outro que está perturbado.

Tipos de avaliações do modelo de fundação

As seções a seguir fornecem detalhes sobre os tipos de avaliações humanas e algorítmicas para seu modelo básico.

Avaliações humanas

Para avaliar seu modelo por um ser humano, você deve definir as métricas e os tipos de métricas associados. Se quiser avaliar mais de um modelo, você pode usar um mecanismo de avaliação comparativo ou individual. Se quiser avaliar um modelo, você deve usar um mecanismo de classificação individual. Os seguintes mecanismos de classificação podem ser aplicados a qualquer tarefa relacionada a texto:

  • Escala Likert (Comparativa) - comparação — Um avaliador humano indicará sua preferência entre duas respostas em uma escala Likert de 5 pontos, de acordo com suas instruções. No relatório final, os resultados serão mostrados como um histograma de classificações por força de preferência em relação a todo o conjunto de dados. Defina os pontos importantes da escala de 5 pontos em suas instruções para que seus avaliadores saibam como avaliar as respostas de acordo com suas expectativas.

  • Botões de escolha (comparativos) — Permite que um avaliador humano indique uma resposta preferencial em relação a outra usando botões de rádio, de acordo com suas instruções. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique seu método de avaliação claramente nas instruções.

  • Classificação ordinal (comparativa) — Permite que um avaliador humano classifique suas respostas preferidas a uma solicitação em ordem, começando em 1 e de acordo com suas instruções. No relatório final, os resultados são exibidos como um histograma das classificações dos avaliadores em todo o conjunto de dados. Certifique-se de definir o que 1 significa uma classificação de em suas instruções.

  • (Individual) Polegar para cima/para baixo — Permite que um avaliador humano classifique cada resposta de um modelo como aceitável ou inaceitável de acordo com suas instruções. No relatório final, os resultados mostram uma porcentagem do número total de avaliações dos avaliadores que receberam uma avaliação positiva para cada modelo. Você pode usar esse método de classificação para avaliar um ou mais modelos. Se você usar isso em uma avaliação que contém dois modelos, a interface do usuário apresenta à sua equipe de trabalho uma opção positiva ou negativa para cada resposta do modelo. O relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é uma resposta aceitável em suas instruções para sua equipe de trabalho.

  • Escala Likert (individual) - individual — Permite que um avaliador humano indique com que intensidade aprova a resposta do modelo, com base em suas instruções, em uma escala Likert de 5 pontos. No relatório final, os resultados exibem um histograma das avaliações de 5 pontos dos avaliadores em todo o conjunto de dados. Você pode usar esse método de classificação para uma avaliação contendo um ou mais modelos. Se você selecionar esse método de classificação em uma avaliação que contém mais de um modelo, uma escala Likert de 5 pontos será apresentada à sua equipe de trabalho para cada resposta do modelo. O relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes na escala de 5 pontos em suas instruções para que seus avaliadores saibam como avaliar as respostas de acordo com suas expectativas.

Avaliações automáticas

As avaliações automáticas podem aproveitar conjuntos de dados e algoritmos integrados, ou você pode trazer seu próprio conjunto de dados de solicitações específicas para seu caso de uso. Os conjuntos de dados integrados variam para cada tarefa e estão listados nas seções a seguir. Para obter um resumo das tarefas e suas métricas e conjuntos de dados associados, consulte a tabela na seção de avaliação resumida do modelo Foundation a seguir.

Resumo da avaliação do modelo da Fundação

A tabela a seguir resume todas as tarefas de avaliação, métricas e conjuntos de dados integrados para avaliações humanas e automáticas.

Tarefa Avaliações humanas Métricas humanas Avaliações automáticas Métricas automáticas Conjuntos de dados integrados automáticos

Geração aberta

Fluência, coerência, toxicidade, precisão, consistência, relevância, definido pelo usuário

Taxa de preferência, Força de preferência, Classificação de preferência, Taxa de aprovação, Força de aprovação

Conhecimento factual

TREX

Robustez semântica

TREX

BOLD

WikiText

Estereotipagem imediata

CrowS-Pairs

Toxicidade

RealToxicityPrompts

BOLD

Sumarização de texto

Precisão

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

Respostas a perguntas

Precisão

Correspondência exata

BoolQ

Combinação quase exata

NaturalQuestions

F1 sobre palavras

TriviaQA

Robustez semântica

BoolQ

NaturalQuestions

TriviaQA

Toxicidade

BoolQ

NaturalQuestions

TriviaQA

Classificação de texto

Precisão

Precisão da classificação

Women's Ecommerce Clothing Reviews

Precisão

Women's Ecommerce Clothing Reviews

Recall

Women's Ecommerce Clothing Reviews

Precisão de classificação balanceada

Women's Ecommerce Clothing Reviews

Robustez semântica

Women's Ecommerce Clothing Reviews