Tareas de evaluación de modelos Tipos de evaluaciones del modelo básico Resumen de la evaluación del modelo básico

Uso de conjuntos de datos rápidos y dimensiones de evaluación disponibles en los trabajos de evaluación de modelos

En las siguientes secciones se proporciona una descripción general de cómo utilizar los trabajos de evaluación de modelos automáticos y basados en humanos.

Tareas de evaluación de modelos

En un trabajo de evaluación de modelos, una tarea de evaluación es una tarea que desea que el modelo realice en función de la información que se encuentra en las instrucciones.

Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos. Utilice las siguientes secciones para obtener más información sobre cada tipo de tarea. Cada sección también incluye una lista de conjuntos de datos integrados disponibles y sus métricas correspondientes, que solo se pueden usar en trabajos de evaluación automática de modelos.

Generación abierta

La generación de texto abierto es una tarea básica que genera respuestas en lenguaje natural a las solicitudes que no tienen una estructura predefinida, como las consultas de uso general a un chatbot. Para la generación de texto abierto, Foundation Model Evaluations (FMEval) puede evaluar el modelo según las siguientes dimensiones.

Conocimiento fáctico: evalúa qué tan bien su modelo codifica el conocimiento fáctico. FMEvalpuede medir su modelo con respecto a su propio conjunto de datos personalizado o utilizar un conjunto de datos integrado basado en TREXconjunto de datos de código abierto.
Robustez semántica: evalúa cuánto cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. FMEvalmide cómo cambia el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco.
Estereotipado rápido: mide la probabilidad de que el modelo codifique sesgos en su respuesta. Estos sesgos incluyen los de raza, género, orientación sexual, religión, edad, nacionalidad, discapacidad, apariencia física y nivel socioeconómico. FMEvalpuede medir las respuestas de su modelo en función de su propio conjunto de datos personalizado o utilizar un conjunto de datos integrado basado en CrowS-Pairsconjunto de datos de desafíos de código abierto.
Toxicidad: evalúa el texto mediante modelos de detección de toxicidad. FMEvalcomprueba si su modelo contiene referencias sexuales, comentarios groseros, irrazonables, odiosos o agresivos, blasfemias, insultos, coqueteos, ataques a la identidad y amenazas. FMEvalpuede medir su modelo con respecto a su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en RealToxicityPrompts, RealToxicityPromptsChallenging, y BOLDconjuntos de datos.

RealToxicityPromptsChallenging es un subconjunto de RealToxicityPrompts que se usa para probar los límites de un modelo de lenguaje grande (LLM). También identifica las áreas que LLMs son vulnerables a la generación de textos tóxicos.

Puede evaluar su modelo con los siguientes detectores de toxicidad:
- UnitaryAI Detoxify-unbiased— Un clasificador de texto con múltiples etiquetas entrenado en Toxic Comment Classification Challenge y Jigsaw Unintended Bias in Toxicity Classification. El modelo proporciona 7 puntuaciones para las siguientes clases: toxicidad, toxicidad grave, obscenidad, amenaza, insulto, agresión sexual explícita y ataque a la identidad.
- Toxigen-roberta— Un binario RoBERTaclasificador de texto basado en el ToxiGen conjunto de datos. La ToxiGen El conjunto de datos contiene oraciones con una toxicidad sutil e implícita relacionadas con grupos minoritarios.

Resumen de texto

El resumen de texto se utiliza para tareas como la creación de resúmenes de noticias, documentos legales, artículos académicos, vistas previas de contenido y selección de contenido. Los siguientes factores pueden influir en la calidad de las respuestas: la ambigüedad, la coherencia, el sesgo, la fluidez del texto utilizado para formar el modelo básico y la pérdida de información, la precisión, la relevancia o el desajuste del contexto. FMEvalpuede evaluar su modelo en función de su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en Government Report Dataset, y Gigawordconjuntos de datos. Para resumir el texto, FMEval puede evaluar su modelo para lo siguiente:

Precisión: puntuación numérica que indica la similitud del resumen con un resumen de referencia y que se acepta como estándar de referencia. Una puntuación numérica alta indica que el resumen es de alta calidad. Una puntuación numérica baja indica un resumen deficiente. Las siguientes métricas se utilizan para evaluar la precisión de un resumen:
- ROUGE-N— Calcula N-gram superposiciones entre la referencia y el resumen del modelo.
- Meteor— Calcula la superposición de palabras entre la referencia y el resumen del modelo y, al mismo tiempo, tiene en cuenta la reformulación.
- BERTScore— Calcula y compara las incrustaciones de oraciones para resumirlas y referenciarlas. FMEvalutiliza los modelos roberta-large-mnlio deberta-xlarge-mnlimicrosoft/ para calcular las incrustaciones.
Toxicidad: puntuaciones de los resúmenes generados que se calculan mediante un modelo de detector de toxicidad. Para obtener información adicional, consulte la sección Toxicidad de la sección anterior sobre la tarea de generación abierta para obtener más información.
Solidez semántica: medida de cuánto cambia la calidad del resumen del texto del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Algunos ejemplos de estos cambios son los errores tipográficos, los cambios aleatorios a mayúsculas y las adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica utiliza la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado. El algoritmo de precisión utiliza la ROUGE-N, Meteor, y BERTScoremétricas, tal como se detalló anteriormente en esta sección.

Respuesta a preguntas

La respuesta a las preguntas se utiliza para tareas como la generación de respuestas automáticas en el servicio de asistencia, la recuperación de información y el aprendizaje electrónico. FMEvalpuede evaluar su modelo con respecto a su propio conjunto de datos personalizado o utilizar conjuntos de datos integrados basados en BoolQ, TriviaQA, y Natural Questionsconjuntos de datos. Para responder a preguntas, FMEval puede evaluar su modelo para lo siguiente:

Precisión: puntuación media que compara la respuesta generada con los pares de preguntas y respuestas que figuran en las referencias. La puntuación se promedia a partir de los siguientes métodos:
- Coincidencia exacta: 1 se asigna una puntuación binaria de a una coincidencia exacta o de 0 otra forma.
- Coincidencia casi exacta: 1 se asigna una puntuación binaria de a una coincidencia después de eliminar la puntuación y los artículos gramaticales (como la, la a y) (normalización).
- F1 sobre palabras: la puntuación F1, o media armónica de precisión y memoria entre la respuesta normalizada y la referencia. La puntuación F1 es igual al doble de la precisión multiplicada por la recuperación dividida por la suma de la precisión (P) y la recuperación (R), o F1 = (2*P*R)/(P + R).
  
  En el cálculo anterior, la precisión se define como el número de positivos verdaderos (TP) dividido por la suma de los positivos verdaderos y los falsos positivos (FP), o P = (TP)/(TP+FP).
  
  El recuerdo se define como el número de positivos verdaderos dividido por la suma de los positivos verdaderos y los falsos negativos (FN), o R = (TP)/(TP+FN).
  
  Una puntuación más alta de F1 sobre las palabras indica respuestas de mayor calidad.
Solidez semántica: medida de cuánto cambia la calidad del resumen del texto del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Algunos ejemplos de estos cambios son los errores tipográficos del teclado, la conversión imprecisa de números en palabras, los cambios aleatorios a mayúsculas y las adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica utiliza la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado. La precisión se mide mediante la coincidencia exacta, la coincidencia cuasiexacta y la combinación F1 sobre las palabras, tal y como se ha descrito anteriormente.
Toxicidad: las puntuaciones evalúan las respuestas generadas mediante un modelo de detector de toxicidad. Para obtener información adicional, consulte la sección Toxicidad de la sección anterior sobre la tarea de generación abierta para obtener más información.

Clasificación

La clasificación se utiliza para clasificar el texto en categorías predefinidas. Las aplicaciones que utilizan la clasificación de textos incluyen la recomendación de contenido, la detección de spam, la identificación del idioma y el análisis de tendencias en las redes sociales. Los datos desequilibrados, ambiguos y ruidosos y los sesgos en el etiquetado son algunos de los problemas que pueden provocar errores en la clasificación. FMEvalevalúa el modelo con respecto a un conjunto de datos integrado en función de Women’s ECommerce Clothing Reviewsconjunto de datos o comparándolo con sus propios conjuntos de datos rápidos para lo siguiente.

Precisión: puntuación que compara la clase pronosticada con su etiqueta. La precisión se mide mediante las siguientes métricas:
- Precisión de clasificación: una puntuación binaria que 1 indica si la etiqueta pronosticada es igual a la etiqueta verdadera o si 0 no.
- Precisión: la relación entre los positivos verdaderos y todos los positivos, calculada en todo el conjunto de datos. La precisión es una medida adecuada cuando es importante reducir los falsos positivos. La puntuación de cada punto de datos se puede agregar utilizando los siguientes valores para el multiclass_average_strategy parámetro. Cada parámetro se muestra en el siguiente ejemplo.
- Recordemos: la relación entre los positivos verdaderos y la suma de los positivos verdaderos y los falsos negativos, calculada para todo el conjunto de datos. El recuerdo es una medida adecuada cuando es importante reducir los falsos negativos. Las puntuaciones de cada punto de datos se pueden agregar utilizando los siguientes valores para el multiclass_average_strategy parámetro.
  - micro(predeterminado): la suma de los positivos verdaderos dividida entre la suma de los positivos verdaderos y los falsos negativos de todas las clases. Este tipo de agregación proporciona una medida de la precisión predictiva general del modelo y, al mismo tiempo, considera todas las clases por igual. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para clasificar correctamente a los pacientes con cualquier enfermedad, incluidas las enfermedades raras, ya que otorga el mismo peso a todas las clases.
  - macro— La suma de los valores de recuperación calculados para cada clase dividida por el número de clases. Este tipo de agregación proporciona una medida de la precisión predictiva del modelo para cada clase, con el mismo peso para cada clase. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para predecir todas las enfermedades, independientemente de la prevalencia o rareza de cada afección.
  - samples(solo clasificación multiclase): la relación entre la suma de los positivos verdaderos de todas las muestras y la suma de los positivos verdaderos y los falsos negativos de todas las muestras. En la clasificación multiclase, una muestra consiste en un conjunto de respuestas pronosticadas para cada clase. Este tipo de agregación proporciona una medida granular de la recuperación de cada muestra en el caso de problemas con varias clases. Por ejemplo, dado que la agregación por muestras trata a cada muestra por igual, esta agregación puede evaluar la capacidad del modelo para predecir un diagnóstico correcto para un paciente con una enfermedad rara y, al mismo tiempo, minimizar los falsos negativos.
  - weighted— El peso de una clase multiplicado por la recuperación de la misma clase, sumado entre todas las clases. Este tipo de agregación proporciona una medida de la memoria global y, al mismo tiempo, tiene en cuenta las diferentes importancias entre las clases. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para predecir un diagnóstico correcto para un paciente y dar mayor importancia a las enfermedades que ponen en peligro la vida.
  - binary— La recuperación calculada para la clase especificada por el valorpos_label. Este tipo de agregación ignora la clase no especificada y proporciona una precisión predictiva general para una sola clase. Por ejemplo, esta agregación puede evaluar la capacidad del modelo para evaluar a una población para detectar una enfermedad específica altamente contagiosa y potencialmente mortal.
  - none— El recuerdo calculado para cada clase. El recuerdo de clases específicas puede ayudarle a corregir los desequilibrios de clase en sus datos cuando la penalización por error varía significativamente de una clase a otra. Por ejemplo, esta agregación puede evaluar qué tan bien su modelo puede identificar a todos los pacientes que puedan tener una enfermedad específica.
- Precisión de clasificación equilibrada (BCA): la suma de los valores recuperados y la tasa negativa real dividida entre el valor obtenido 2 en la clasificación binaria. La tasa negativa verdadera es el número de negativos verdaderos dividido por la suma de los negativos verdaderos y los falsos positivos. En la clasificación BCA multiclase, se calcula como la suma de los valores recuperados de cada clase dividida por el número de clases. BCApuede ser útil cuando la penalización por predecir tanto falsos positivos como falsos negativos es alta. Por ejemplo, BCA puede evaluar qué tan bien su modelo puede predecir una serie de enfermedades letales altamente contagiosas con tratamientos invasivos.
Robustez semántica: evalúa en qué medida cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. FMEvalmide el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco. La robustez semántica marca la diferencia absoluta de precisión entre un resumen de texto que no se ve perturbado y otro que está perturbado.

Tipos de evaluaciones del modelo básico

En las siguientes secciones se proporcionan detalles sobre los tipos de evaluaciones humanas y algorítmicas del modelo básico.

Evaluaciones humanas

Para evaluar su modelo por una persona, debe definir las métricas y los tipos de métricas asociadas. Si desea evaluar más de un modelo, puede utilizar un mecanismo de valoración comparativo o individual. Si desea evaluar un modelo, debe utilizar un mecanismo de valoración individual. Los siguientes mecanismos de clasificación se pueden aplicar a cualquier tarea relacionada con el texto:

Escala Likert (comparativa): un evaluador humano indicará su preferencia entre dos respuestas en una escala Likert de 5 puntos según sus instrucciones. En el informe final, los resultados se mostrarán como un histograma de las puntuaciones por intensidad de preferencia en todo el conjunto de datos. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que los evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas.
Botones de elección (comparativos): permiten a un evaluador humano indicar una respuesta preferida en lugar de otra mediante botones de radio, de acuerdo con sus instrucciones. Los resultados del informe final se mostrarán como el porcentaje de respuestas que hayan preferido los trabajadores para cada modelo. Explique claramente su método de evaluación en las instrucciones.
Clasificación ordinal (comparativa): permite a un evaluador humano clasificar sus respuestas preferidas según un mensaje en orden, empezando por 1 y siguiendo sus instrucciones. En el informe final, los resultados se muestran como un histograma de las clasificaciones de los evaluadores en todo el conjunto de datos. Asegúrese de definir lo que 1 significa un rango de en sus instrucciones.
(Individual) Con el visto bueno hacia arriba o hacia abajo: permite a un evaluador humano calificar cada respuesta de un modelo como aceptable o inaceptable según sus instrucciones. En el informe final, los resultados muestran un porcentaje del número total de valoraciones de los evaluadores que recibieron una valoración favorable para cada modelo. Puede utilizar este método de calificación para evaluar uno o más modelos. Si lo utilizas en una evaluación que contiene dos modelos, la interfaz de usuario presenta a tu equipo de trabajo la opción de aceptar o rechazar cada respuesta del modelo. El informe final mostrará los resultados agregados de cada modelo de forma individual. Defina qué es una respuesta aceptable en las instrucciones que dé a su equipo de trabajo.
Escala Likert (individual): permite a un evaluador humano indicar en qué medida aprueba la respuesta del modelo, según sus instrucciones, en una escala Likert de 5 puntos. En el informe final, los resultados muestran un histograma de las puntuaciones de 5 puntos de los evaluadores en todo el conjunto de datos. Puede usar este método de calificación para una evaluación que contenga uno o más modelos. Si selecciona este método de calificación en una evaluación que contiene más de un modelo, se presenta una escala Likert de 5 puntos al equipo de trabajo para cada respuesta del modelo. El informe final mostrará los resultados agregados de cada modelo de forma individual. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que sus evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas.

Evaluaciones automáticas

Las evaluaciones automáticas pueden aprovechar los conjuntos de datos y algoritmos integrados, o bien, puede incorporar su propio conjunto de datos de solicitudes que sean específicos para su caso de uso. Los conjuntos de datos integrados varían para cada tarea y se enumeran en las siguientes secciones. Para obtener un resumen de las tareas y sus métricas y conjuntos de datos asociados, consulte la tabla de la siguiente sección de evaluación resumida del modelo básico.

Resumen de la evaluación del modelo básico

La siguiente tabla resume todas las tareas de evaluación, las métricas y los conjuntos de datos integrados para las evaluaciones humanas y automáticas.

Tarea	Evaluaciones humanas	Métricas humanas	Evaluaciones automáticas	Métricas automáticas	Conjuntos de datos integrados automáticos
Generación abierta	Fluidez, coherencia, toxicidad, precisión, consistencia, relevancia, definido por el usuario	Tasa de preferencia, fuerza de preferencia, rango de preferencia, tasa de aprobación, fuerza de aprobación	Conocimiento fáctico		TREX
			Robustez semántica		TREX
					BOLD
					WikiText
			Estereotipos rápidos		CrowS-Pairs
			Toxicidad		RealToxicityPrompts
					BOLD
Resumen de texto			Precisión	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
Respuesta a preguntas			Precisión	Coincidencia exacta	BoolQ
				Coincidencia casi exacta	NaturalQuestions
				F1 sobre las palabras	TriviaQA
			Robustez semántica		BoolQ
					NaturalQuestions
					TriviaQA
			Toxicidad		BoolQ
					NaturalQuestions
					TriviaQA
Clasificación de textos			Precisión	Precisión de clasificación	Women's Ecommerce Clothing Reviews
				Precisión	Women's Ecommerce Clothing Reviews
				Exhaustividad	Women's Ecommerce Clothing Reviews
				Precisión de clasificación equilibrada	Women's Ecommerce Clothing Reviews
			Robustez semántica		Women's Ecommerce Clothing Reviews

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Precisión