Conceitos básicos das avaliações de modelos

Um grande modelo de linguagem (LLM) é um modelo de machine learning que pode analisar e gerar texto em linguagem natural. Se você quiser avaliar um LLM, a SageMaker IA fornece as três opções a seguir que você pode escolher:

Configure avaliações manuais para a força de trabalho humana usando o Studio.
Avalie seu modelo com um algoritmo usando o Studio.
Avalie automaticamente seu modelo com um fluxo de trabalho personalizado usando a biblioteca fmeval.

Você pode usar um algoritmo para avaliar automaticamente seu modelo de base ou pedir a uma equipe de trabalho humana que avalie as respostas dos modelos.

As equipes de trabalho humano podem avaliar e comparar até dois modelos simultaneamente usando métricas que indicam preferência por uma resposta em relação a outra. O fluxo de trabalho, as métricas e as instruções para uma avaliação humana podem ser personalizados para se adequar a um caso de uso específico. Os humanos também podem fornecer uma avaliação mais sofisticada do que uma avaliação algorítmica.

Você também pode usar um algoritmo para avaliar seu LLM usando parâmetros de referência para pontuar rapidamente as respostas do seu modelo no Studio. O Studio fornece um fluxo de trabalho guiado para avaliar as respostas de um JumpStart modelo usando métricas predefinidas. Essas métricas são específicas para tarefas de IA generativa. O fluxo guiado usa conjuntos de dados integrados ou personalizados para avaliar seu LLM.

Como alternativa, você pode usar a biblioteca fmeval para criar um fluxo de trabalho mais personalizado usando avaliações automáticas em vez do que está disponível no Studio. Usando o Python código e a fmeval biblioteca, você pode avaliar qualquer LLM baseado em texto, incluindo modelos que foram criados fora do. JumpStart

Os tópicos a seguir fornecem uma visão geral das avaliações do modelo básico, um resumo dos fluxos de trabalho automáticos e humanos do Foundation Model Evaluation (FMEval), como executá-los e como visualizar um relatório de análise de seus resultados. O tópico de avaliação automática mostra como configurar e executar uma avaliação inicial e uma avaliação personalizada.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Avaliações de modelo

Conjuntos de dados de prompts e dimensões de avaliação