Entenda as opções para avaliar grandes modelos de linguagem com SageMaker o Clarify - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entenda as opções para avaliar grandes modelos de linguagem com SageMaker o Clarify

Importante

Para usar o SageMaker Clarify Foundation Model Evaluations, você deve fazer o upgrade para a nova experiência do Studio. Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. O atributo de avaliação de base só pode ser usado na experiência atualizada. Para obter informações sobre como atualizar o Studio, consulte Migração do Amazon SageMaker Studio Classic. Para obter informações sobre como usar a aplicação do Studio Classic, consulte Amazon SageMaker Studio Clássico.

Usando o Amazon SageMaker Clarify, você pode avaliar grandes modelos de linguagem (LLMs) criando trabalhos de avaliação de modelos. Um trabalho de avaliação de modelo permite que você avalie e compare as métricas de qualidade e responsabilidade do modelo para modelos básicos baseados em texto de. JumpStart Os trabalhos de avaliação de modelos também oferecem suporte ao uso de JumpStart modelos que já foram implantados em um endpoint.

Você pode criar um trabalho de avaliação de modelo usando três abordagens diferentes.

  • Crie trabalhos automáticos de avaliação de modelo no Studio: Trabalhos automáticos de avaliação de modelo permitem que você avalie rapidamente a capacidade de um modelo de realizar uma tarefa. É possível fornecer um conjunto de dados de prompts personalizado, adaptado a um caso de uso específico, ou usar um conjunto de dados integrado disponível.

  • Crie trabalhos de avaliação de modelo com a participação de operadores humanos no Studio: os trabalhos de avaliação de modelo com a participação de operadores humanos permitem que você inclua contribuições humanas no processo de avaliação de modelo. Eles podem ser funcionários da sua empresa ou um grupo de especialistas no assunto do setor.

  • Crie um trabalho automatizado de avaliação de modelos usando a biblioteca fmeval: criar um trabalho usando o fmeval oferece um melhor controle sobre seus trabalhos de avaliação de modelos. Ele também suporta o uso de modelos LLMs externos AWS ou não JumpStart baseados de outros serviços.

Os trabalhos de avaliação de modelos oferecem suporte a casos de uso comuns, LLMs como geração de texto, classificação de texto, perguntas e respostas e resumo de texto.

  • Geração aberta: A produção de respostas humanas naturais ao texto que não tem uma estrutura predefinida.

  • Resumo de texto: A geração de um resumo conciso e condensado, retendo o significado e as principais informações contidas em um texto maior.

  • Resposta a perguntas: A geração de uma resposta relevante e precisa a um prompt.

  • Classificação: Atribuição de uma categoria, como um rótulo ou uma pontuação, ao texto com base em seu conteúdo.

Os tópicos a seguir descrevem as tarefas de avaliação de modelo disponíveis e os tipos de métricas que você pode usar. Também descrevem os conjuntos de dados integrados disponíveis e como especificar um conjunto de dados próprio.