Avalie um modelo básico de geração de texto no Studio - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avalie um modelo básico de geração de texto no Studio

nota

O Foundation Model Evaluations (FMEval) está na versão prévia do Amazon SageMaker Clarify e está sujeito a alterações.

Importante

Para usar o SageMaker Clarify Foundation Model Evaluations, você deve fazer o upgrade para a nova experiência do Studio. Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. O recurso de avaliação da fundação só pode ser usado na experiência atualizada. Para obter informações sobre como atualizar o Studio, consulteMigração do Amazon SageMaker Studio Classic. Para obter informações sobre como usar o aplicativo Studio Classic, consulteAmazon SageMaker Studio Clássico.

SageMaker JumpStart A Amazon tem integrações com o SageMaker Clarify Foundation Model Evaluations (FMEval) no Studio. Se um JumpStart modelo tiver recursos de avaliação integrados disponíveis, você poderá escolher Avaliar no canto superior direito da página de detalhes do modelo na interface do usuário do JumpStart Studio. Para obter mais informações sobre como navegar na interface do usuário do JumpStart Studio, consulte Abra e use JumpStart no Studio

Use SageMaker JumpStart a Amazon para avaliar modelos de base baseados em texto com. FMEval Você pode usar essas avaliações de modelo para comparar as métricas de qualidade e responsabilidade do modelo para um modelo, entre dois modelos ou entre diferentes versões do mesmo modelo, para ajudá-lo a quantificar os riscos do modelo. FMEvalpode avaliar modelos baseados em texto que realizam as seguintes tarefas:

  • Geração aberta — A produção de respostas humanas naturais ao texto que não tem uma estrutura predefinida.

  • Resumo do texto — A geração de um resumo conciso e condensado, mantendo o significado e as principais informações contidas em um texto maior.

  • Resposta a perguntas — A geração de uma resposta em linguagem natural para uma pergunta.

  • Classificação — A atribuição de uma classe, como positive versus uma passagem negative de texto com base em seu conteúdo.

Você pode usar FMEval para avaliar automaticamente as respostas do modelo com base em benchmarks específicos. Você também pode avaliar as respostas do modelo de acordo com seus próprios critérios trazendo seus próprios conjuntos de dados imediatos. FMEvalfornece uma interface de usuário (UI) que orienta você na instalação e configuração de um trabalho de avaliação. Você também pode usar a FMEval biblioteca dentro do seu próprio código.

Cada avaliação exige uma cota para duas instâncias:

  • Instância de hospedagem — Uma instância que hospeda e implanta umaLLM.

  • Instância de avaliação — Uma instância usada para solicitar e realizar uma avaliação de uma LLM na instância de hospedagem.

Se você já LLM estiver implantado, forneça o endpoint e SageMaker usará sua instância de hospedagem para hospedar e implantar o. LLM

Se você estiver avaliando um JumpStart modelo que ainda não foi implantado em sua conta, FMEval cria uma instância de hospedagem temporária para você em sua conta e a mantém implantada somente durante a avaliação. FMEvalusa a instância padrão que JumpStart recomenda a escolhida LLM como sua instância de hospedagem. Você deve ter cota suficiente para essa instância recomendada.

Cada avaliação também usa uma instância de avaliação para fornecer solicitações e pontuar as respostas doLLM. Você também deve ter cota e memória suficientes para executar os algoritmos de avaliação. Os requisitos de cota e memória da instância de avaliação geralmente são menores do que os exigidos para uma instância de hospedagem. Recomendamos selecionar a ml.m5.2xlarge instância. Para obter mais informações sobre cota e memória, consulteResolva erros ao criar um trabalho de avaliação de modelo na Amazon SageMaker.

As avaliações automáticas podem ser usadas para pontuar LLMs nas seguintes dimensões:

  • Precisão — Para resumo de texto, resposta a perguntas e classificação de texto

  • Robustez semântica — Para tarefas abertas de geração, resumo e classificação de texto

  • Conhecimento factual — Para uma geração aberta

  • Estereotipagem rápida — Para uma geração aberta

  • Toxicidade — Para geração aberta, resumo de texto e resposta a perguntas

Você também pode usar avaliações humanas para avaliar manualmente as respostas do modelo. A FMEval interface do usuário orienta você em um fluxo de trabalho de seleção de um ou mais modelos, provisionamento de recursos, redação de instruções e contato com sua força de trabalho humana. Depois que a avaliação humana for concluída, os resultados serão exibidos emFMEval.

Você pode acessar a avaliação do modelo por meio da página JumpStart inicial no Studio selecionando um modelo para avaliar e, em seguida, escolhendo Avaliar. Observe que nem todos os JumpStart modelos têm recursos de avaliação disponíveis. Para obter mais informações sobre como configurar, provisionar e executarFMEval, consulte O que são avaliações do modelo básico?