As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
A seção a seguir descreve as métricas que você pode usar para entender seus modelos de linguagem grandes e ajustados (). LLMs Usando seu conjunto de dados, o Autopilot ajusta diretamente seu LLM alvo para aprimorar uma métrica objetiva padrão, a perda de entropia cruzada.
A perda de entropia cruzada é uma métrica amplamente usada para avaliar a dissimilaridade entre a distribuição de probabilidade prevista e a distribuição real das palavras nos dados de treinamento. Ao minimizar a perda de entropia cruzada, o modelo aprende a fazer predições mais precisas e contextualmente relevantes, principalmente em tarefas relacionadas à geração de texto.
Depois de ajustar um LLM, você pode avaliar a qualidade do texto gerado usando uma variedade de ROUGE pontuações. Além disso, você pode analisar as perdas de treinamento e validação de perplexidade e entropia cruzada como parte do processo de avaliação.
-
A perda de perplexidade mede o quão bem o modelo pode prever a próxima palavra em uma sequência de texto, com valores mais baixos indicando uma melhor compreensão do idioma e do contexto.
-
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) é um conjunto de métricas usadas no campo do processamento de linguagem natural (PNL) e do aprendizado de máquina para avaliar a qualidade do texto gerado por máquina, como resumo ou geração de texto. Ele avalia principalmente as semelhanças entre o texto gerado e o texto de referência da verdade básica (escrito por humanos) de um conjunto de dados de validação. ROUGE as medidas são projetadas para avaliar vários aspectos da similaridade de texto, incluindo a precisão e a recordação de n-gramas (sequências contíguas de palavras) nos textos gerados pelo sistema e de referência. O objetivo é avaliar o quão bem um modelo captura as informações presentes no texto de referência.
Existem várias variantes do ROUGE métricas, dependendo do tipo de n-gramas usados e dos aspectos específicos da qualidade do texto que estão sendo avaliados.
A lista a seguir contém o nome e a descrição do ROUGE métricas disponíveis após o ajuste fino de grandes modelos de linguagem no Autopilot.
ROUGE-1
,ROUGE-2
-
ROUGE-N, o principal ROUGE métrica, mede a sobreposição de n-gramas entre os textos gerados pelo sistema e de referência. ROUGE-N podem ser ajustados para diferentes valores de
n
(aqui1
ou2
) para avaliar o quão bem o texto gerado pelo sistema captura os n-gramas do texto de referência. ROUGE-L
-
ROUGE-L (ROUGE-Longest Subseqüência comum) calcula a maior subsequência comum entre o texto gerado pelo sistema e o texto de referência. Essa variante considera a ordem das palavras, além da sobreposição de conteúdo.
ROUGE-L-Sum
-
ROUGE-L-SUM (Longest Common Subsequence for Summarization) foi projetado para a avaliação de sistemas de resumo de texto. Ele se concentra em medir a maior subsequência comum entre o resumo gerado pela máquina e o resumo de referência. ROUGE-L-SUM leva em consideração a ordem das palavras no texto, o que é importante nas tarefas de resumo do texto.