Entenda os resultados de um trabalho de avaliação automática - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entenda os resultados de um trabalho de avaliação automática

Quando seu trabalho de avaliação automática do modelo é concluído, os resultados são salvos no Amazon S3. As seções abaixo descrevem os arquivos gerados e como interpretá-los.

Interpretando a output.json estrutura do arquivo

O output.json arquivo contém pontuações agregadas para os conjuntos de dados e métricas selecionados.

A seguir está um exemplo de saída

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interpretando a estrutura do arquivo de resultados em termos de instância

Umevaluation_name_dataset_nameArquivo.jsonl contendo resultados por instância para cada solicitação jsonlines. Se você tinha 300 solicitações em seus dados de entrada jsonlines, esse arquivo de saída jsonlines contém respostas. 300 O arquivo de saída contém a solicitação feita ao seu modelo seguida pela pontuação dessa avaliação. Veja a seguir um exemplo de saída para toda a instância.

Interpretando o relatório

Um relatório de avaliação contém os resultados do seu trabalho de avaliação do modelo de fundação. O conteúdo do relatório de avaliação depende do tipo de tarefa usada para avaliar seu modelo. Cada relatório contém as seguintes seções:

  1. As pontuações gerais de cada avaliação bem-sucedida na tarefa de avaliação. Como exemplo de uma avaliação com um conjunto de dados, se você avaliou seu modelo para uma tarefa de classificação de Precisão e Robustez Semântica, uma tabela resumindo os resultados da avaliação de Precisão e Robustez Semântica de Precisão aparece na parte superior do seu relatório. Outras avaliações com outros conjuntos de dados podem ser estruturadas de forma diferente.

  2. A configuração do seu trabalho de avaliação, incluindo o nome e o tipo do modelo, quais métodos de avaliação foram usados e com quais conjuntos de dados seu modelo foi avaliado.

  3. Uma seção de resultados de avaliação detalhados que resume o algoritmo de avaliação, fornece informações e links para qualquer conjunto de dados incorporado, como as pontuações são calculadas e tabelas mostrando alguns dados de amostra com suas pontuações associadas.

  4. Uma seção de avaliações reprovadas que contém uma lista de avaliações que não foram concluídas. Se nenhuma avaliação falhar, essa seção do relatório será omitida.