Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
En la siguiente sección se describen las métricas que puede utilizar para comprender sus modelos lingüísticos extensos y ajustados ()LLMs. Con el conjunto de datos, Piloto automático afina directamente un LLM objetivo, con el fin de mejorar una métrica objetivo predeterminada: la pérdida de entropía cruzada.
La pérdida de entropía cruzada es una métrica muy utilizada para evaluar la diferencia entre la distribución de probabilidad prevista y la distribución real de las palabras en los datos de entrenamiento. Al minimizar la pérdida de entropía cruzada, el modelo aprende a hacer predicciones más precisas y relevantes desde el punto de vista del contexto, especialmente en las tareas relacionadas con la generación de texto.
Tras afinar un LLM, puede evaluar la calidad del texto generado utilizando un rango de ROUGE puntajes. Además, puede analizar la perplejidad y las pérdidas de entrenamiento y validación por entropía cruzada como parte del proceso de evaluación.
-
La pérdida de perplejidad mide hasta qué punto el modelo puede predecir la siguiente palabra de una secuencia de texto; los valores más bajos indican una mejor comprensión del idioma y el contexto.
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) es un conjunto de métricas que se utilizan en el campo del procesamiento del lenguaje natural (PNL) y el aprendizaje automático para evaluar la calidad del texto generado por máquina, como el resumen o la generación de texto. Principalmente, evalúa las similitudes entre el texto generado y el texto de referencia de datos reales (escrito por humanos) en un conjunto de datos de validación. ROUGE Las medidas están diseñadas para evaluar varios aspectos de la similitud de los textos, incluida la precisión y la capacidad de recordar los n-gramas (secuencias contiguas de palabras) en los textos generados por el sistema y de referencia. El objetivo es evaluar el grado de precisión de un modelo al capturar la información presente en el texto de referencia.
Existen varias variantes de ROUGE métricas, según el tipo de n-gramas utilizados y los aspectos específicos de la calidad del texto que se estén evaluando.
La siguiente lista contiene el nombre y la descripción del ROUGE las métricas están disponibles tras ajustar los modelos lingüísticos de gran tamaño en Autopilot.
ROUGE-1
,ROUGE-2
-
ROUGE-N, el principal ROUGE métrica, mide la superposición de n-gramas entre los textos generados por el sistema y los de referencia. ROUGE-N se puede ajustar a diferentes valores de
n
(aquí1
o2
) para evaluar en qué medida el texto generado por el sistema captura los n-gramas del texto de referencia. ROUGE-L
-
ROUGE-L (ROUGE-Longest (Subsecuencia común) calcula la subsecuencia común más larga entre el texto generado por el sistema y el texto de referencia. Esta variante tiene en cuenta el orden de las palabras además de la superposición del contenido.
ROUGE-L-Sum
-
ROUGE-L-SUM (La subsecuencia común más larga para resumir) está diseñada para la evaluación de los sistemas de resumen de textos. Su objetivo es medir la subsecuencia común más larga entre el resumen generado automáticamente y el resumen de referencia. ROUGE-L-SUM tiene en cuenta el orden de las palabras en el texto, lo cual es importante en las tareas de resumen de textos.