Explicación de los resultados de un trabajo de evaluación automática - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Explicación de los resultados de un trabajo de evaluación automática

Al finalizar el trabajo de evaluación del modelo automática, los resultados se guardan en Amazon S3. En las siguientes secciones, se describen los archivos generados y cómo interpretarlos.

Interpretación de la estructura del archivo output.json

El archivo output.json contiene las puntuaciones agregadas de los conjuntos de datos y las métricas seleccionadas.

El siguiente es un ejemplo de salida.

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interpretación de la estructura del archivo de resultados basado en instancias

Un archivo evaluation_name dataset_name _.jsonl que contiene los resultados por instancia de cada solicitud de jsonlines. Si tenía 300 solicitudes en los datos de entrada jsonlines, este archivo de salida jsonlines contiene 300 respuestas. El archivo de salida contiene la solicitud realizada a su modelo seguida de la puntuación de esa evaluación. A continuación, se muestra un ejemplo de salida para toda la instancia.

Interpretación del informe

Un informe de evaluación contiene los resultados de su trabajo de evaluación del modelo fundacional. El contenido del informe de evaluación depende del tipo de tarea que haya utilizado para evaluar su modelo. Cada informe contiene las siguientes secciones:

  1. Las puntuaciones generales de cada evaluación correcta de la tarea de evaluación. Como ejemplo de una evaluación con un solo conjunto de datos, si evaluó su modelo para una tarea de clasificación de la exactitud y la solidez semántica, en la parte superior del informe aparecerá una tabla con un resumen de los resultados de la evaluación de exactitud y solidez semántica. Es posible que otras evaluaciones con otros conjuntos de datos estén estructuradas de forma diferente.

  2. La configuración de su trabajo de evaluación, incluidos el nombre del modelo, el tipo, los métodos de evaluación que se utilizaron y los conjuntos de datos con los que se evaluó su modelo.

  3. La sección Resultados de la evaluación detallados que resume el algoritmo de evaluación, proporciona información sobre cualquier conjunto de datos integrado y enlaces a ellos, cómo se calculan las puntuaciones y tablas que muestran algunos datos de muestra con sus puntuaciones asociadas.

  4. La sección Evaluaciones fallidas que contiene una lista de las evaluaciones que no se completaron. Si ninguna evaluación ha fallado, se omite esta sección del informe.