Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de conjuntos de datos rápidos y dimensiones de evaluación disponibles en los trabajos de evaluación de modelos
En las siguientes secciones se proporciona una descripción general de cómo utilizar los trabajos de evaluación de modelos automáticos y basados en humanos.
Tareas de evaluación de modelos
En un trabajo de evaluación de modelos, una tarea de evaluación es una tarea que desea que el modelo realice en función de la información que se encuentra en las instrucciones.
Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos. Utilice las siguientes secciones para obtener más información sobre cada tipo de tarea. Cada sección también incluye una lista de conjuntos de datos integrados disponibles y sus métricas correspondientes, que solo se pueden usar en trabajos de evaluación automática de modelos.
Generación abierta
La generación de texto abierto es una tarea básica que genera respuestas en lenguaje natural a las solicitudes que no tienen una estructura predefinida, como las consultas de uso general a un chatbot. Para la generación de texto abierto, Foundation Model Evaluations (FMEval) puede evaluar el modelo según las siguientes dimensiones.
-
Conocimiento fáctico: evalúa qué tan bien su modelo codifica el conocimiento fáctico. FMEvalpuede medir su modelo con respecto a su propio conjunto de datos personalizado o utilizar un conjunto de datos integrado basado en TREX
conjunto de datos de código abierto. -
Robustez semántica: evalúa cuánto cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. FMEvalmide cómo cambia el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco.
-
Estereotipado rápido: mide la probabilidad de que el modelo codifique sesgos en su respuesta. Estos sesgos incluyen los de raza, género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y nivel socioeconómico. FMEvalpuede medir las respuestas de su modelo en función de su propio conjunto de datos personalizado o utilizar un conjunto de datos integrado basado en CrowS-Pairs
conjunto de datos de desafíos de código abierto. -
Toxicidad: evalúa el texto mediante modelos de detección de toxicidad. FMEvalcomprueba si su modelo contiene referencias sexuales, comentarios groseros, irrazonables, odiosos o agresivos, blasfemias, insultos, coqueteos, ataques a la identidad y amenazas. FMEvalpuede medir su modelo con respecto a su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en RealToxicityPrompts
, RealToxicityPromptsChallenging, y BOLD conjuntos de datos. RealToxicityPromptsChallenging es un subconjunto de RealToxicityPrompts que se usa para probar los límites de un modelo de lenguaje grande (LLM). También identifica las áreas que LLMs son vulnerables a la generación de textos tóxicos.
Puede evaluar su modelo con los siguientes detectores de toxicidad:
-
UnitaryAI Detoxify-unbiased
— Un clasificador de texto con múltiples etiquetas entrenado en Toxic Comment Classification Challenge y Jigsaw Unintended Bias in Toxicity Classification . El modelo proporciona 7
puntuaciones para las siguientes clases: toxicidad, toxicidad grave, obscenidad, amenaza, insulto, agresión sexual explícita y ataque a la identidad. -
Toxigen-roberta
— Un binario RoBERTaclasificador de texto basado en el ToxiGen conjunto de datos. La ToxiGen El conjunto de datos contiene oraciones con una toxicidad sutil e implícita relacionadas con grupos minoritarios.
-
Resumen de texto
El resumen de texto se utiliza para tareas como la creación de resúmenes de noticias, documentos legales, artículos académicos, vistas previas de contenido y selección de contenido. Los siguientes factores pueden influir en la calidad de las respuestas: la ambigüedad, la coherencia, el sesgo, la fluidez del texto utilizado para formar el modelo básico y la pérdida de información, la precisión, la relevancia o el desajuste del contexto. FMEvalpuede evaluar su modelo en función de su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en Government Report
Dataset
-
Precisión: puntuación numérica que indica la similitud del resumen con un resumen de referencia y que se acepta como estándar de referencia. Una puntuación numérica alta indica que el resumen es de alta calidad. Una puntuación numérica baja indica un resumen deficiente. Las siguientes métricas se utilizan para evaluar la precisión de un resumen:
-
ROUGE-N
— Calcula N-gram superposiciones entre la referencia y el resumen del modelo. -
Meteor
— Calcula la superposición de palabras entre la referencia y el resumen del modelo y, al mismo tiempo, tiene en cuenta la reformulación. -
BERTScore
— Calcula y compara las incrustaciones de oraciones para resumirlas y referenciarlas. FMEvalutiliza los modelos roberta-large-mnli o deberta-xlarge-mnlimicrosoft/ para calcular las incrustaciones.
-
-
Toxicidad: puntuaciones de los resúmenes generados que se calculan mediante un modelo de detector de toxicidad. Para obtener información adicional, consulte la sección Toxicidad de la sección anterior sobre la tarea de generación abierta para obtener más información.
-
Solidez semántica: medida de cuánto cambia la calidad del resumen del texto del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Algunos ejemplos de estos cambios son los errores tipográficos, los cambios aleatorios a mayúsculas y las adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica utiliza la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado. El algoritmo de precisión utiliza la ROUGE-N
, Meteor , y BERTScore métricas, tal como se detalló anteriormente en esta sección.
Respuesta a preguntas
La respuesta a las preguntas se utiliza para tareas como la generación de respuestas automáticas en el servicio de asistencia, la recuperación de información y el aprendizaje electrónico. FMEvalpuede evaluar su modelo con respecto a su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en BoolQ
-
Precisión: puntuación media que compara la respuesta generada con los pares de preguntas y respuestas que figuran en las referencias. La puntuación se promedia a partir de los siguientes métodos:
-
Coincidencia exacta:
1
se asigna una puntuación binaria de a una coincidencia exacta o de0
otra forma. -
Coincidencia casi exacta:
1
se asigna una puntuación binaria de a una coincidencia después de eliminar la puntuación y los artículos gramaticales (como la, la a y) (normalización). -
F1 sobre palabras: la puntuación F1, o media armónica de precisión y memoria entre la respuesta normalizada y la referencia. La puntuación F1 es igual al doble de la precisión multiplicada por la recuperación dividida por la suma de la precisión (P) y la recuperación (R), o F1 = (2*P*R)/(P + R).
En el cálculo anterior, la precisión se define como el número de positivos verdaderos (TP) dividido por la suma de los positivos verdaderos y los falsos positivos (FP), o P = (TP)/(TP+FP).
El recuerdo se define como el número de positivos verdaderos dividido por la suma de los positivos verdaderos y los falsos negativos (FN), o R = (TP)/(TP+FN).
Una puntuación más alta de F1 sobre las palabras indica respuestas de mayor calidad.
-
-
Solidez semántica: medida de cuánto cambia la calidad del resumen del texto del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Algunos ejemplos de estos cambios son los errores tipográficos del teclado, la conversión imprecisa de números en palabras, los cambios aleatorios a mayúsculas y las adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica utiliza la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado. La precisión se mide mediante la coincidencia exacta, la coincidencia cuasiexacta y la combinación F1 sobre las palabras, tal y como se ha descrito anteriormente.
-
Toxicidad: las puntuaciones evalúan las respuestas generadas mediante un modelo de detector de toxicidad. Para obtener información adicional, consulte la sección Toxicidad de la sección anterior sobre la tarea de generación abierta para obtener más información.
Clasificación
La clasificación se utiliza para clasificar el texto en categorías predefinidas. Las aplicaciones que utilizan la clasificación de textos incluyen la recomendación de contenido, la detección de spam, la identificación del idioma y el análisis de tendencias en las redes sociales. Los datos desequilibrados, ambiguos y ruidosos y los sesgos en el etiquetado son algunos de los problemas que pueden provocar errores en la clasificación. FMEvalevalúa el modelo con respecto a un conjunto de datos integrado en función de Women’s ECommerce Clothing Reviews
-
Precisión: puntuación que compara la clase pronosticada con su etiqueta. La precisión se mide mediante las siguientes métricas:
-
Precisión de clasificación: una puntuación binaria que
1
indica si la etiqueta pronosticada es igual a la etiqueta verdadera o si0
no. -
Precisión: la relación entre los positivos verdaderos y todos los positivos, calculada en todo el conjunto de datos. La precisión es una medida adecuada cuando es importante reducir los falsos positivos. La puntuación de cada punto de datos se puede agregar utilizando los siguientes valores para el
multiclass_average_strategy
parámetro. Cada parámetro se muestra en el siguiente ejemplo. -
Recordemos: la relación entre los positivos verdaderos y la suma de los positivos verdaderos y los falsos negativos, calculada para todo el conjunto de datos. El recuerdo es una medida adecuada cuando es importante reducir los falsos negativos. Las puntuaciones de cada punto de datos se pueden agregar utilizando los siguientes valores para el
multiclass_average_strategy
parámetro.-
micro
(predeterminado): la suma de los positivos verdaderos dividida entre la suma de los positivos verdaderos y los falsos negativos de todas las clases. Este tipo de agregación proporciona una medida de la precisión predictiva general del modelo y, al mismo tiempo, considera todas las clases por igual. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para clasificar correctamente a los pacientes con cualquier enfermedad, incluidas las enfermedades raras, ya que otorga el mismo peso a todas las clases. -
macro
— La suma de los valores de recuperación calculados para cada clase dividida por el número de clases. Este tipo de agregación proporciona una medida de la precisión predictiva del modelo para cada clase, con el mismo peso para cada clase. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para predecir todas las enfermedades, independientemente de la prevalencia o rareza de cada afección. -
samples
(solo clasificación multiclase): la relación entre la suma de los positivos verdaderos de todas las muestras y la suma de los positivos verdaderos y los falsos negativos de todas las muestras. En la clasificación multiclase, una muestra consiste en un conjunto de respuestas pronosticadas para cada clase. Este tipo de agregación proporciona una medida granular de la recuperación de cada muestra en el caso de problemas con varias clases. Por ejemplo, dado que la agregación por muestras trata a cada muestra por igual, esta agregación puede evaluar la capacidad del modelo para predecir un diagnóstico correcto para un paciente con una enfermedad rara y, al mismo tiempo, minimizar los falsos negativos. -
weighted
— El peso de una clase multiplicado por la recuperación de la misma clase, sumado entre todas las clases. Este tipo de agregación proporciona una medida de la memoria global y, al mismo tiempo, tiene en cuenta las diferentes importancias entre las clases. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para predecir un diagnóstico correcto para un paciente y dar mayor importancia a las enfermedades que ponen en peligro la vida. -
binary
— La recuperación calculada para la clase especificada por el valorpos_label
. Este tipo de agregación ignora la clase no especificada y proporciona una precisión predictiva general para una sola clase. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para evaluar a una población para detectar una enfermedad específica altamente contagiosa y potencialmente mortal. -
none
— El recuerdo calculado para cada clase. El recuerdo de clases específicas puede ayudarle a corregir los desequilibrios de clase en sus datos cuando la penalización por error varía significativamente de una clase a otra. Por ejemplo, esta agregación puede evaluar qué tan bien su modelo puede identificar a todos los pacientes que puedan tener una enfermedad específica.
-
-
Precisión de clasificación equilibrada (BCA): la suma de los valores recuperados y la tasa negativa real dividida entre el valor obtenido
2
en la clasificación binaria. La tasa negativa verdadera es el número de negativos verdaderos dividido por la suma de los negativos verdaderos y los falsos positivos. En la clasificación BCA multiclase, se calcula como la suma de los valores recuperados de cada clase dividida por el número de clases. BCApuede ser útil cuando la penalización por predecir tanto falsos positivos como falsos negativos es alta. Por ejemplo, BCA puede evaluar qué tan bien su modelo puede predecir una serie de enfermedades letales altamente contagiosas con tratamientos invasivos.
-
-
Robustez semántica: evalúa en qué medida cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. FMEvalmide el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica marca la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado.
Tipos de evaluaciones del modelo básico
En las siguientes secciones se proporcionan detalles sobre los tipos de evaluaciones humanas y algorítmicas del modelo básico.
Evaluaciones humanas
Para evaluar su modelo por una persona, debe definir las métricas y los tipos de métricas asociadas. Si desea evaluar más de un modelo, puede utilizar un mecanismo de valoración comparativo o individual. Si desea evaluar un modelo, debe utilizar un mecanismo de valoración individual. Los siguientes mecanismos de clasificación se pueden aplicar a cualquier tarea relacionada con el texto:
-
Escala Likert (comparativa): un evaluador humano indicará su preferencia entre dos respuestas en una escala Likert de 5 puntos según sus instrucciones. En el informe final, los resultados se mostrarán como un histograma de las puntuaciones por intensidad de preferencia en todo el conjunto de datos. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que los evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas.
-
Botones de elección (comparativos): permiten a un evaluador humano indicar una respuesta preferida en lugar de otra mediante botones de radio, de acuerdo con sus instrucciones. Los resultados del informe final se mostrarán como el porcentaje de respuestas que hayan preferido los trabajadores para cada modelo. Explique claramente su método de evaluación en las instrucciones.
-
Clasificación ordinal (comparativa): permite a un evaluador humano clasificar sus respuestas preferidas según un mensaje en orden, empezando por 1 y siguiendo sus instrucciones. En el informe final, los resultados se muestran como un histograma de las clasificaciones de los evaluadores en todo el conjunto de datos. Asegúrese de definir lo que
1
significa un rango de en sus instrucciones. -
(Individual) Con el visto bueno hacia arriba o hacia abajo: permite a un evaluador humano calificar cada respuesta de un modelo como aceptable o inaceptable según sus instrucciones. En el informe final, los resultados muestran un porcentaje del número total de valoraciones de los evaluadores que recibieron una valoración favorable para cada modelo. Puede utilizar este método de calificación para evaluar uno o más modelos. Si lo utilizas en una evaluación que contiene dos modelos, la interfaz de usuario presenta a tu equipo de trabajo la opción de aceptar o rechazar cada respuesta del modelo. El informe final mostrará los resultados agregados de cada modelo de forma individual. Defina qué es una respuesta aceptable en las instrucciones que dé a su equipo de trabajo.
-
Escala Likert (individual): permite a un evaluador humano indicar en qué medida aprueba la respuesta del modelo, según sus instrucciones, en una escala Likert de 5 puntos. En el informe final, los resultados muestran un histograma de las puntuaciones de 5 puntos de los evaluadores en todo el conjunto de datos. Puede usar este método de calificación para una evaluación que contenga uno o más modelos. Si selecciona este método de calificación en una evaluación que contiene más de un modelo, se presenta una escala Likert de 5 puntos al equipo de trabajo para cada respuesta del modelo. El informe final mostrará los resultados agregados de cada modelo de forma individual. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que sus evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas.
Evaluaciones automáticas
Las evaluaciones automáticas pueden aprovechar los conjuntos de datos y algoritmos integrados, o bien, puede incorporar su propio conjunto de datos de solicitudes que sean específicos para su caso de uso. Los conjuntos de datos integrados varían para cada tarea y se enumeran en las siguientes secciones. Para obtener un resumen de las tareas y sus métricas y conjuntos de datos asociados, consulte la tabla de la siguiente sección de evaluación resumida del modelo básico.
Resumen de la evaluación del modelo básico
La siguiente tabla resume todas las tareas de evaluación, las métricas y los conjuntos de datos integrados para las evaluaciones humanas y automáticas.
Tarea | Evaluaciones humanas | Métricas humanas | Evaluaciones automáticas | Métricas automáticas | Conjuntos de datos integrados automáticos |
---|---|---|---|---|---|
Generación abierta |
Fluidez, coherencia, toxicidad, precisión, consistencia, relevancia, definido por el usuario |
Tasa de preferencia, fuerza de preferencia, rango de preferencia, tasa de aprobación, fuerza de aprobación |
Conocimiento fáctico |
TREX |
|
Robustez semántica |
TREX |
||||
BOLD |
|||||
WikiText |
|||||
Estereotipos rápidos |
CrowS-Pairs |
||||
Toxicidad |
RealToxicityPrompts |
||||
BOLD |
|||||
Resumen de texto |
Precisión |
ROUGE-N |
Government Report Dataset |
||
BERTScore |
Gigaword |
||||
Government Report Dataset |
|||||
Gigaword |
|||||
Government Report Dataset |
|||||
Gigaword |
|||||
Respuesta a preguntas |
Precisión |
Coincidencia exacta |
BoolQ |
||
Coincidencia casi exacta |
NaturalQuestions |
||||
F1 sobre las palabras |
TriviaQA |
||||
Robustez semántica |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
Toxicidad |
BoolQ |
||||
NaturalQuestions |
|||||
TriviaQA |
|||||
Clasificación de textos |
Precisión |
Precisión de clasificación |
Women's Ecommerce Clothing Reviews |
||
Precisión |
Women's Ecommerce Clothing Reviews |
||||
Exhaustividad |
Women's Ecommerce Clothing Reviews |
||||
Precisión de clasificación equilibrada |
Women's Ecommerce Clothing Reviews |
||||
Robustez semántica |
Women's Ecommerce Clothing Reviews |