As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Entenda os resultados de um trabalho de avaliação automática
Quando seu trabalho de avaliação automática do modelo é concluído, os resultados são salvos no Amazon S3. As seções abaixo descrevem os arquivos gerados e como interpretá-los.
Interpretando a output.json
estrutura do arquivo
O output.json
arquivo contém pontuações agregadas para os conjuntos de dados e métricas selecionados.
A seguir está um exemplo de saída
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
Interpretando a estrutura do arquivo de resultados em termos de instância
Umevaluation_name
_dataset_name
Arquivo.jsonl contendo resultados por instância para cada solicitação jsonlines. Se você tinha 300
solicitações em seus dados de entrada jsonlines, esse arquivo de saída jsonlines contém respostas. 300
O arquivo de saída contém a solicitação feita ao seu modelo seguida pela pontuação dessa avaliação. Veja a seguir um exemplo de saída para toda a instância.
Interpretando o relatório
Um relatório de avaliação contém os resultados do seu trabalho de avaliação do modelo de fundação. O conteúdo do relatório de avaliação depende do tipo de tarefa usada para avaliar seu modelo. Cada relatório contém as seguintes seções:
-
As pontuações gerais de cada avaliação bem-sucedida na tarefa de avaliação. Como exemplo de uma avaliação com um conjunto de dados, se você avaliou seu modelo para uma tarefa de classificação de Precisão e Robustez Semântica, uma tabela resumindo os resultados da avaliação de Precisão e Robustez Semântica de Precisão aparece na parte superior do seu relatório. Outras avaliações com outros conjuntos de dados podem ser estruturadas de forma diferente.
-
A configuração do seu trabalho de avaliação, incluindo o nome e o tipo do modelo, quais métodos de avaliação foram usados e com quais conjuntos de dados seu modelo foi avaliado.
-
Uma seção de resultados de avaliação detalhados que resume o algoritmo de avaliação, fornece informações e links para qualquer conjunto de dados incorporado, como as pontuações são calculadas e tabelas mostrando alguns dados de amostra com suas pontuações associadas.
-
Uma seção de avaliações reprovadas que contém uma lista de avaliações que não foram concluídas. Se nenhuma avaliação falhar, essa seção do relatório será omitida.