Entenda as opções para avaliar grandes modelos de linguagem com SageMaker o Clarify - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entenda as opções para avaliar grandes modelos de linguagem com SageMaker o Clarify

Importante

Para usar o SageMaker Clarify Foundation Model Evaluations, você deve fazer o upgrade para a nova experiência do Studio. Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. O recurso de avaliação da fundação só pode ser usado na experiência atualizada. Para obter informações sobre como atualizar o Studio, consulteMigração do Amazon SageMaker Studio Classic. Para obter informações sobre como usar o aplicativo Studio Classic, consulteAmazon SageMaker Studio Clássico.

Usando o Amazon SageMaker Clarify, você pode avaliar grandes modelos de linguagem (LLMs) criando trabalhos de avaliação de modelos. Um trabalho de avaliação de modelo permite que você avalie e compare as métricas de qualidade e responsabilidade do modelo para modelos básicos baseados em texto de. JumpStart Os trabalhos de avaliação de modelos também oferecem suporte ao uso de JumpStart modelos que já foram implantados em um endpoint.

Você pode criar um trabalho de avaliação de modelo usando três abordagens diferentes.

  • Crie trabalhos automatizados de avaliação de modelos no Studio — Os trabalhos de avaliação automática de modelos permitem que você avalie rapidamente a capacidade de um modelo de realizar uma tarefa. Você pode fornecer um conjunto de dados de prompts personalizado, adaptado a um caso de uso específico, ou usar um conjunto de dados integrado disponível.

  • Crie trabalhos de avaliação de modelos que usem trabalhadores humanos no Studio — Os trabalhos de avaliação de modelos que usam trabalhadores humanos permitem que você traga contribuições humanas para o processo de avaliação de modelos. Podem ser de funcionários da sua empresa ou de um grupo de especialistas no assunto do seu setor.

  • Crie um trabalho automatizado de avaliação de modelos usando a fmeval biblioteca — Criar um trabalho usando o fmeval oferece o controle mais refinado sobre seus trabalhos de avaliação de modelos. Ele também suporta o uso de modelos LLMs externos AWS ou não JumpStart baseados em outros serviços.

Os trabalhos de avaliação de modelos oferecem suporte a casos de uso comuns, LLMs como geração de texto, classificação de texto, perguntas e respostas e resumo de texto.

  • Geração aberta — A produção de respostas humanas naturais ao texto que não tem uma estrutura predefinida.

  • Resumo de texto — A geração de um resumo conciso e condensado, mantendo o significado e as principais informações contidas em um texto maior.

  • Resposta a perguntas — A geração de uma resposta relevante e precisa a uma solicitação.

  • Classificação — atribuir uma categoria, como um rótulo ou uma pontuação ao texto, com base em seu conteúdo.

Os tópicos a seguir descrevem as tarefas de avaliação de modelo disponíveis e os tipos de métricas que você pode usar. Também descrevem os conjuntos de dados integrados disponíveis e como especificar um conjunto de dados próprio.