As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar conjuntos de dados de prompts e dimensões de avaliação disponíveis em trabalhos de avaliação de modelo
As seções a seguir fornecem uma visão geral de como usar trabalhos de avaliação de modelo automáticos ou feitos por humanos.
Tarefas de avaliação de modelo
Em um trabalho de avaliação de modelo, uma tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts.
É possível escolher um tipo de tarefa por trabalho de avaliação de modelo. Use as seções a seguir para saber mais sobre cada tipo de tarefa. Cada seção também inclui uma lista de conjuntos de dados integrados disponíveis e suas métricas correspondentes, que só podem ser usados em trabalhos automáticos de avaliação de modelo.
Geração aberta
A geração de texto aberto é uma tarefa de modelo básico que gera respostas em linguagem natural para prompts que não têm uma estrutura predefinida, como consultas de uso geral a um robô de bate-papo. Para geração de texto aberto, o Foundation Model Evaluations (FMEval) pode avaliar seu modelo de acordo com as seguintes dimensões.
-
Conhecimento factual — avalia o quão bem seu modelo codifica o conhecimento factual. FMEval pode medir seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar um conjunto de dados integrado com base no TREX
conjunto de dados de código aberto. -
Robustez semântica — avalia o quanto a saída do modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. FMEval mede como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.
-
Estereotipagem de prompt: Mede a probabilidade de seu modelo codificar vieses em sua resposta. Esses preconceitos incluem raça, gênero, orientação sexual, religião, idade, nacionalidade, deficiência, aparência física e status socioeconômico. FMEval pode medir as respostas do seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar um conjunto de dados integrado com base no CrowS-Pairs
conjunto de dados de desafios de código aberto. -
Toxicidade — Avalia o texto usando modelos de detecção de toxicidade. FMEval verifica seu modelo em busca de referências sexuais, comentários rudes, irracionais, odiosos ou agressivos, palavrões, insultos, flertes, ataques a identidades e ameaças. FMEval pode medir seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no RealToxicityPrompts
, RealToxicityPromptsChallenging, e BOLD conjuntos de dados. RealToxicityPromptsChallenging é um subconjunto de RealToxicityPrompts que é usado para testar os limites de um modelo de linguagem grande (LLM). Também identifica áreas LLMs vulneráveis à geração de texto tóxico.
Você pode avaliar seu modelo com os seguintes detectores de toxicidade:
-
UnitaryAI Detoxify-unbiased
— Um classificador de texto com vários rótulos treinado em Toxic Comment Classification Challenge e Jigsaw Unintended Bias in Toxicity Classification . O modelo fornece 7
pontuações para as seguintes classes: toxicidade, toxicidade grave, obscenidade, ameaça, insulto, sexo explícito e ataque de identidade. -
Toxigen-roberta
— Um binário RoBERTaclassificador de texto baseado em ajuste fino no ToxiGen conjunto de dados. A ferramenta ToxiGen o conjunto de dados contém frases com toxicidade sutil e implícita pertencentes a grupos minoritários.
-
Resumo de texto
O resumo de texto é usado para tarefas que incluem a criação de resumos de notícias, documentos jurídicos, trabalhos acadêmicos, pré-visualizações de conteúdo e curadoria de conteúdo. O seguinte pode influenciar a qualidade das respostas: ambigüidade, coerência, viés, fluência do texto usado para treinar o modelo básico e perda de informações, precisão, relevância ou incompatibilidade de contexto. FMEval pode avaliar seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no Government Report
Dataset
-
Precisão: Uma pontuação numérica que indica a semelhança do resumo com um resumo de referência que é aceito como padrão de excelência. Uma pontuação numérica alta indica que o resumo é de alta qualidade. Uma pontuação numérica baixa indica um resumo ruim. As métricas a seguir são usadas para avaliar a precisão de um resumo:
-
ROUGE-N
— Computadores N-gram sobreposições entre a referência e o resumo do modelo. -
Meteor
: Calcula a sobreposição de palavras entre a referência e o resumo do modelo, além de contabilizar a reformulação. -
BERTScore
— Calcula e compara a incorporação de frases para o resumo e a referência. FMEval usa os deberta-xlarge-mnli modelos roberta-large-mnli ou microsoft/ para calcular as incorporações.
-
-
Toxicidade: Pontuações para resumos gerados que são calculadas usando um modelo de detector de toxicidade. Para obter informações adicionais, consulte a seção Toxicidade na seção anterior sobre a tarefa de geração aberta para obter detalhes.
-
Robustez semântica: Uma medida de quanto a qualidade do resumo de texto do seu modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. Exemplos dessas alterações incluem erros de digitação, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica usa a diferença absoluta da precisão entre um resumo de texto que não foi alterado e outro que foi alterado. O algoritmo de precisão usa o ROUGE-N
, Meteor , e BERTScore métricas, conforme detalhado anteriormente nesta seção.
Perguntas e respostas
A resposta a perguntas é usada para tarefas como gerar respostas automáticas de suporte técnico, recuperação de informações e e-learning. FMEval pode avaliar seu modelo em relação ao seu próprio conjunto de dados personalizado ou usar conjuntos de dados integrados com base no BoolQ
-
Precisão: Uma pontuação média comparando a resposta gerada com os pares de perguntas e respostas fornecidos nas referências. A pontuação é calculada a partir dos seguintes métodos:
-
Correspondência exata: Uma pontuação binária de
1
é atribuída a uma correspondência exata; e,0
, caso contrário. -
Correspondência quase exata: Uma pontuação binária de
1
é atribuída a uma correspondência após a remoção (normalização) de pontuação e artigos gramaticais (como “o”, “um”, “e”). -
F1 em relação às palavras: A pontuação F1, ou média harmônica de precisão e recordação entre a resposta normalizada e a referência. A pontuação F1 é igual a duas vezes a precisão multiplicada pela recordação dividida pela soma da precisão (P) e recordação (R), ou F1 = (2*P*R)/(P + R).
No cálculo anterior, a precisão é definida como o número de verdadeiros positivos (VP) dividido pela soma dos verdadeiros positivos e falsos positivos (FP), ou P = (VP)/(VP + FP).
A recordação é definida como o número de verdadeiros positivos dividido pela soma de verdadeiros positivos e falsos negativos (FN), ou R = (VP)/(VP + FN).
Uma pontuação F1 alta indica respostas de maior qualidade.
-
-
Robustez semântica: Uma medida de quanto a qualidade do resumo de texto do seu modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. Exemplos dessas alterações incluem erros de digitação no teclado, conversão imprecisa de números em palavras, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica usa a diferença absoluta da precisão entre um resumo de texto que não foi alterado e outro que foi alterado. A precisão é medida usando correspondência exata, correspondência quase exata e F1 em relação às palavras, conforme descrito anteriormente.
-
Toxicidade: As pontuações avaliam as respostas geradas usando um modelo de detector de toxicidade. Para obter informações adicionais, consulte a seção Toxicidade na seção anterior sobre a tarefa de geração aberta para obter detalhes.
Classificação
A classificação é usada para categorizar texto em categorias predefinidas. As aplicações que usam classificação de texto incluem recomendação de conteúdo, detecção de spam, identificação de idioma e análise de tendências em mídias sociais. Dados desequilibrados, ambíguos e ruidosos, viés na rotulagem são alguns problemas que podem causar erros na classificação. FMEval avalia seu modelo em relação a um conjunto de dados integrado com base no Women’s ECommerce Clothing Reviews
-
Precisão: Uma pontuação que compara a classe prevista com seu rótulo real. A precisão é medida usando as seguintes métricas:
-
Precisão da classificação: Uma pontuação binária de
1
se o rótulo previsto é igual ao rótulo verdadeiro; e,0
, caso contrário. -
Precisão: A proporção entre os verdadeiros positivos e todos os positivos, calculada em todo o conjunto de dados. A precisão é uma medida apropriada quando a redução de falsos positivos for importante. A pontuação de cada ponto de dados pode ser agregada usando os seguintes valores para o parâmetro
multiclass_average_strategy
: Cada parâmetro está listado no exemplo a seguir. -
Recall: a proporção de verdadeiros positivos com a soma de verdadeiros positivos e falsos negativos, calculada em todo o conjunto de dados. O recall é uma medida apropriada quando a redução de falsos negativos for importante. As pontuações de cada ponto de dados podem ser agregadas usando os seguintes valores para o parâmetro
multiclass_average_strategy
:-
micro
(padrão): a soma dos verdadeiros positivos dividida pela soma dos verdadeiros positivos e falsos negativos de todas as classes. Esse tipo de agregação fornece uma medida da precisão preditiva geral do seu modelo, considerando todas as classes igualmente. Por exemplo, a agregação pode avaliar a capacidade do seu modelo de classificar corretamente pacientes com qualquer doença, incluindo doenças raras, porque dá peso igual a todas as classes. -
macro
: A soma dos valores de recordação calculados para cada classe dividida pelo número de classes. Esse tipo de agregação fornece uma medida da precisão preditiva do seu modelo para cada classe, com peso igual para todas as classes. Por exemplo, a agregação pode avaliar a capacidade do seu modelo de prever todas as doenças, independentemente da prevalência ou raridade de cada condição. -
samples
(somente classificação de várias classes): A razão entre a soma dos verdadeiros positivos em todas as amostras e a soma dos verdadeiros positivos e falsos negativos de todas as amostras. Para classificação de várias classes, uma amostra consiste de um conjunto de respostas previstas de cada classe. Esse tipo de agregação fornece uma medida meticulosa da recordação de cada amostra para problemas de várias classes. Por exemplo, como a agregação por amostras trata cada amostra igualmente, ela pode avaliar a capacidade do seu modelo de prever um diagnóstico correto para um paciente com uma doença rara e, ao mesmo tempo, minimizar os falsos negativos. -
weighted
: O peso de uma classe multiplicado pela recordação da mesma classe, somando todas as classes. Esse tipo de agregação fornece uma medida da recordação geral, ao mesmo tempo em que acomoda diferentes importâncias entre as classes. Por exemplo, a agregação pode avaliar a capacidade do seu modelo de prever um diagnóstico correto para um paciente e dar maior peso às doenças que ameaçam a vida. -
binary
: A recordação calculada para a classe especificada pelo valorpos_label
. Esse tipo de agregação ignora a classe não especificada e fornece precisão preditiva geral para uma única classe. Por exemplo, essa agregação pode avaliar a capacidade do seu modelo de examinar uma população em busca de uma doença específica altamente contagiosa que oferece risco à vida. -
none
: A recordação calculada para cada classe. A recordação específica de classe pode ajudá-lo a resolver os desequilíbrios de classe em seus dados quando a penalidade por erro varia significativamente entre as classes. Por exemplo, essa agregação pode avaliar o quão bem seu modelo consegue identificar todos os pacientes que possam ter uma doença específica.
-
-
Precisão de classificação balanceada (BCA): A soma da recordação e a taxa de verdadeiros negativos divididas por
2
para a classificação binária. A taxa de verdadeiros negativos é o número de verdadeiros negativos dividido pela soma dos verdadeiros negativos e falsos positivos. Para classificação de várias classes, o BCA é calculado como a soma dos valores de recordação de cada classe dividida pelo número de classes. O BCA pode ajudar quando a penalidade por prever falsos positivos e falsos negativos é alta. Por exemplo, o BCA pode avaliar o quão bem seu modelo consegue prever uma série de doenças letais altamente contagiosas com tratamentos intrusivos.
-
-
Robustez semântica — avalia o quanto a saída do modelo muda como resultado de pequenas mudanças na entrada que preservam a semântica. FMEval mede a saída do modelo como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. A robustez semântica pontua a diferença absoluta na precisão entre um resumo de texto que não foi alterado e outro que foi alterado.
Tipos de avaliações de modelo de base
As seções a seguir fornecem detalhes sobre as avaliações humanas e algorítmicas para seu modelo básico.
Avaliações humanas
Para avaliar seu modelo por um ser humano, você deve definir as métricas e os tipos de métricas associados. Se quiser avaliar mais de um modelo, você pode usar um mecanismo de classificação comparativo ou individual. Se quiser avaliar um modelo, você deve usar um mecanismo de classificação individual. Os seguintes mecanismos de classificação podem ser aplicados a qualquer tarefa relacionada a texto:
-
(Comparativo) Escala Likert (comparação): um avaliador humano indicará sua preferência entre duas respostas em uma escala Likert de cinco pontos, de acordo com as instruções que você definiu. No relatório final, os resultados serão mostrados como um histograma das classificações por força de preferência em relação a todo o conjunto de dados. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas de acordo com suas expectativas.
-
(Comparativo) Botões de escolha: Permite que um avaliador humano indique uma resposta preferencial em relação a outra usando botões de opção, de acordo com suas instruções. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique claramente seu método de avaliação nas instruções.
-
(Comparativo) Classificação ordinal: Permite que um avaliador humano classifique suas respostas preferenciais a um prompt, começando com 1, de acordo com as instruções definidas por você. No relatório final, os resultados serão mostrados como um histograma das classificações dos avaliadores em relação a todo o conjunto de dados. Não se esqueça de definir o que significa uma classificação
1
em suas instruções. -
(Individual) Polegar para cima/para baixo: permite que um avaliador humano classifique cada resposta de um modelo como aceitável/inaceitável de acordo com as instruções definidas por você. No relatório final, os resultados são mostrados com uma porcentagem do número total de classificações positivas dos avaliadores que cada modelo recebeu. Você pode usar esse método de classificação para avaliar um ou mais modelos. Se você usar isso em uma avaliação que contém dois modelos, a interface de usuário apresenta à equipe de trabalho uma opção de polegar para cima ou para baixo para cada resposta do modelo. O relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é uma resposta aceitável em suas instruções para sua equipe de trabalho.
-
(Individual) Escala Likert: individual: Permite que um avaliador humano indique com que intensidade ele aprova a resposta do modelo com base em suas instruções, em uma escala Likert de cinco pontos. No relatório final, os resultados serão mostrados como um histograma das classificações de cinco pontos dos avaliadores em relação a todo o conjunto de dados. Você pode usar esse método de classificação para avaliar um ou mais modelos. Se você selecionar esse método de classificação para uma avaliação que contém mais de um modelo, uma escala Likert de cinco pontos será apresentada à equipe de trabalho para cada resposta do modelo. O relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas.
Avaliações automáticas
As avaliações automáticas podem aproveitar conjuntos de dados e algoritmos integrados, mas você também pode trazer seu próprio conjunto de dados de prompts específicos para o seu caso de uso. Os conjuntos de dados integrados variam para cada tarefa e estão listados nas seções a seguir. Para obter um resumo das tarefas e suas métricas e conjuntos de dados associados, consulte a tabela na seção Avaliação de resumo do modelo de base.
Resumo de uma avaliação de modelo de base
A tabela a seguir resume todas as tarefas de avaliação, métricas e conjuntos de dados integrados para avaliações humanas e automáticas.
Tarefa | Avaliações humanas | Métricas humanas | Avaliações automáticas | Métricas automáticas | Conjuntos de dados integrados automáticos |
---|---|---|---|---|---|
Geração aberta |
Fluência, coerência, toxicidade, precisão, consistência, relevância, definido pelo usuário |
Taxa de preferência, força de preferência, classificação de preferência, taxa de aprovação, força de aprovação |
Conhecimento fatual |
TREX |
|
Robustez semântica |
TREX |
||||
BOLD |
|||||
WikiText |
|||||
Estereotipagem de prompts |
CrowS-Pairs |
||||
Toxicidade |
RealToxicityPrompts |
||||
BOLD |
|||||
Resumo de texto |
Precisão |
ROUGE-N |
Government Report Dataset |
||
BERTScore |
Gigaword |
||||
Government Report Dataset |
|||||
Gigaword |
|||||
Government Report Dataset |
|||||
Gigaword |
|||||
Perguntas e respostas |
Precisão |
Correspondência exata |
BoolQ |
||
Correspondência quase exata |
NaturalQuestions |
||||
F1 em relação a palavras |
TriviaQA |
||||
Robustez semântica |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
Toxicidade |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
Classificação de texto |
Precisão |
Precisão de classificação |
Women's Ecommerce Clothing Reviews |
||
Precisão |
Women's Ecommerce Clothing Reviews |
||||
Recall |
Women's Ecommerce Clothing Reviews |
||||
Precisão de classificação balanceada |
Women's Ecommerce Clothing Reviews |
||||
Robustez semântica |
Women's Ecommerce Clothing Reviews |