Comece com as avaliações de modelos - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Comece com as avaliações de modelos

Um modelo de linguagem grande (LLM) é um modelo de aprendizado de máquina que pode analisar e gerar texto em linguagem natural. Se você quiser avaliar umLLM, SageMaker fornece as três opções a seguir que você pode escolher:

  • Configure avaliações manuais para uma força de trabalho humana usando o Studio.

  • Avalie seu modelo com um algoritmo usando o Studio.

  • Avalie automaticamente seu modelo com um fluxo de trabalho personalizado usando a fmeval biblioteca.

Você pode usar um algoritmo para avaliar automaticamente seu modelo básico ou pedir a uma equipe de trabalho humana que avalie as respostas dos modelos.

As equipes de trabalho humano podem avaliar e comparar até dois modelos simultaneamente usando métricas que indicam preferência por uma resposta em relação a outra. O fluxo de trabalho, as métricas e as instruções para uma avaliação humana podem ser personalizados para se adequar a um caso de uso específico. Os humanos também podem fornecer uma avaliação mais refinada do que uma avaliação algorítmica.

Você também pode usar um algoritmo para avaliar seu LLM uso de benchmarks para pontuar rapidamente as respostas do seu modelo no Studio. O Studio fornece um fluxo de trabalho guiado para avaliar as respostas de um JumpStart modelo usando métricas predefinidas. Essas métricas são específicas para tarefas generativas de IA. Esse fluxo guiado usa conjuntos de dados integrados ou personalizados para avaliar seuLLM.

Como alternativa, você pode usar a fmeval biblioteca para criar um fluxo de trabalho mais personalizado usando avaliações automáticas do que o que está disponível no Studio. O uso do Python código e fmeval biblioteca, você pode avaliar qualquer baseado em textoLLM, incluindo modelos que foram criados fora do. JumpStart

Os tópicos a seguir fornecem uma visão geral das avaliações do modelo básico, um resumo dos fluxos de trabalho automáticos e humanos do Foundation Model Evaluation (FMEval), como executá-los e como visualizar um relatório de análise de seus resultados. O tópico de avaliação automática mostra como configurar e executar uma avaliação inicial e uma avaliação personalizada.

Tópicos