Comprenda los resultados de un trabajo de evaluación automática - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comprenda los resultados de un trabajo de evaluación automática

Cuando finalice el trabajo de evaluación automática del modelo, los resultados se guardarán en Amazon S3. En las siguientes secciones se describen los archivos generados y cómo interpretarlos.

Interpretar la estructura del output.json archivo

El output.json archivo contiene las puntuaciones agregadas de los conjuntos de datos y las métricas seleccionadas.

El siguiente es un ejemplo de salida

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interpretación de la estructura del archivo de resultados por instancias

Unoevaluation_name_dataset_nameUn archivo.jsonl que contiene los resultados por instancia de cada solicitud de jsonlines. Si tenía 300 solicitudes en los datos de entrada de jsonlines, este archivo de salida de jsonlines contiene las respuestas. 300 El archivo de salida contiene la solicitud realizada a su modelo seguida de la puntuación de esa evaluación. A continuación, se muestra un ejemplo de salida para toda la instancia.

Interpretación del informe

Un informe de evaluación contiene los resultados de su trabajo de evaluación del modelo básico. El contenido del informe de evaluación depende del tipo de tarea que haya utilizado para evaluar su modelo. Cada informe contiene las siguientes secciones:

  1. Los puntajes generales de cada evaluación exitosa de la tarea de evaluación. Como ejemplo de una evaluación con un conjunto de datos, si evaluó su modelo para una tarea de clasificación en cuanto a precisión y solidez semántica, en la parte superior del informe aparecerá una tabla con un resumen de los resultados de la evaluación de precisión y precisión (robustez semántica). Es posible que otras evaluaciones con otros conjuntos de datos estén estructuradas de forma diferente.

  2. La configuración de su trabajo de evaluación, incluidos el nombre del modelo, el tipo, los métodos de evaluación que se utilizaron y los conjuntos de datos con los que se evaluó su modelo.

  3. Una sección de resultados de evaluación detallados que resume el algoritmo de evaluación, proporciona información y enlaces a cualquier conjunto de datos integrado, cómo se calculan las puntuaciones y tablas que muestran algunos datos de muestra con sus puntuaciones asociadas.

  4. Una sección de evaluaciones fallidas que contiene una lista de las evaluaciones que no se completaron. Si ninguna evaluación ha fallado, se omite esta sección del informe.