O que são avaliações do modelo básico? - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que são avaliações do modelo básico?

FMEvalpodem ajudá-lo a quantificar os riscos do modelo, como conteúdo impreciso, tóxico ou tendencioso. A avaliação LLM ajuda você a cumprir as diretrizes internacionais sobre IA generativa responsável, como o Padrão do Sistema de Gerenciamento de IA ISO42001 e a Estrutura de Gerenciamento de Riscos de NIST IA.

As seções a seguir fornecem uma ampla visão geral dos métodos suportados para criar avaliações de modelos, visualizar os resultados de um trabalho de avaliação de modelos e analisar os resultados.

Tarefas de avaliação de modelo

Em um trabalho de avaliação de modelo, uma tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. Você pode escolher um tipo de tarefa por tarefa de avaliação de modelo.

Tipos de tarefas compatíveis em trabalhos de avaliação de modelos
  • Geração aberta — A produção de respostas humanas naturais ao texto que não tem uma estrutura predefinida.

  • Resumo de texto — A geração de um resumo conciso e condensado, mantendo o significado e as principais informações contidas em um texto maior.

  • Resposta a perguntas — A geração de uma resposta relevante e precisa a uma solicitação.

  • Classificação — atribuir uma categoria, como um rótulo ou uma pontuação ao texto, com base em seu conteúdo.

  • Personalizado — Permite definir dimensões de avaliação personalizadas para seu trabalho de avaliação de modelo.

Cada tipo de tarefa tem métricas específicas associadas a elas que você pode usar em trabalhos de avaliação de modelos automatizados. Para saber mais sobre as métricas associadas aos trabalhos de avaliação automática de modelos e aos trabalhos de avaliação de modelos que usam trabalhadores humanos, consulteUsando conjuntos de dados imediatos e dimensões de avaliação disponíveis em trabalhos de avaliação de modelos .

Atualização dos parâmetros de inferência

Os parâmetros de inferência são uma forma de influenciar a saída de um modelo sem precisar retreinar ou ajustar um modelo.

No trabalho de avaliação automática do modelo, você pode alterar os novos tokens Temperatura, Top P e Max do modelo.

Temperatura

Altera a quantidade de aleatoriedade nas respostas do modelo. Diminua a temperatura padrão para diminuir a quantidade de aleatoriedade e aumente para ter mais.

Top P

Durante a inferência, o modelo está gerando texto e escolhendo em uma lista de palavras para colocar a próxima palavra. A atualização do Top P altera o número de palavras nessa lista com base em uma porcentagem. Diminuir o Top P resulta em amostras mais determinísticas, enquanto um valor mais alto permitirá mais variabilidade e criatividade no texto gerado.

Máximo de novos tokens

Altera a duração da resposta que o modelo pode fornecer.

Você pode atualizar os parâmetros de inferência no Studio depois de adicionar o modelo ao seu trabalho de avaliação de modelo.

Trabalhos automáticos de avaliação de modelo

Os trabalhos de avaliação automática de modelos usam métricas baseadas em benchmarks para medir respostas tóxicas, prejudiciais ou ruins aos seus clientes. As respostas do modelo são pontuadas usando conjuntos de dados integrados específicos para a tarefa ou você pode especificar seu próprio conjunto de dados de prompt personalizado.

Para criar um trabalho de avaliação automática do modelo, você pode usar o Studio ou a fmevalbiblioteca. Os trabalhos de avaliação automática de modelos oferecem suporte ao uso de um único modelo. No Studio, você pode usar um JumpStart modelo ou um JumpStart modelo que você implantou anteriormente em um endpoint.

Como alternativa, você pode implantar a fmeval biblioteca em sua própria base de código e personalizar o trabalho de avaliação do modelo para seus próprios casos de uso.

Para entender melhor seus resultados, use o relatório gerado. O relatório inclui visualizações e exemplos. Você também vê os resultados salvos no bucket do Amazon S3 especificado ao criar o trabalho. Para saber mais sobre a estrutura dos resultados, consulteEntenda os resultados de um trabalho de avaliação automática.

Para usar um modelo não disponível publicamente em JumpStart , você deve usar a fmeval biblioteca para executar o trabalho de avaliação automática do modelo. Para obter uma lista de JumpStart modelos, consulteModelos de fundação disponíveis.

Modelos de prompt

Para ajudar a garantir que o JumpStart modelo selecionado tenha um bom desempenho em todas as solicitações, o SageMaker Clarify aumenta automaticamente suas solicitações de entrada em um formato que funcione melhor para o modelo e as dimensões de avaliação selecionadas. Para ver o modelo de solicitação padrão fornecido pelo Clarify, escolha Modelo de solicitação no cartão para a dimensão de avaliação. Se você selecionar, por exemplo, o tipo de tarefa Resumo de texto na interface do usuário, o Clarify exibirá, por padrão, um cartão para cada uma das dimensões de avaliação associadas — nesse caso, Precisão, Toxicidade e Robustez Semântica. Nesses cartões, você pode configurar os conjuntos de dados e os modelos de solicitação que o Clarify usa para medir essa dimensão de avaliação. Você também pode remover qualquer dimensão que não queira usar.

Modelos de prompt padrão

O Clarify fornece uma seleção de conjuntos de dados que você pode usar para medir cada dimensão de avaliação. Você pode optar por usar um ou mais desses conjuntos de dados ou fornecer seu próprio conjunto de dados personalizado. Se você usar os conjuntos de dados fornecidos pelo Clarify, também poderá usar os modelos de prompt inseridos pelo Clarify como padrão. Derivamos essas solicitações padrão analisando o formato de resposta em cada conjunto de dados e determinando os aumentos de consulta necessários para obter o mesmo formato de resposta.

O modelo de prompt fornecido pelo Clarify também depende do modelo selecionado. Você pode escolher um modelo ajustado para esperar instruções em locais específicos do prompt. Por exemplo, escolhendo o modelo meta-textgenerationneuron-llama-2-7b, o tipo de tarefa Resumo de texto e o Gigaword conjunto de dados, mostra um modelo de prompt padrão do seguinte:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

A escolha do modelo de chat de lhama meta-textgenerationneuron-llama-2-7b-f, por outro lado, mostra o seguinte modelo de prompt padrão:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Modelos de prompt personalizados

Na caixa de diálogo do modelo de prompt, você pode ativar ou desativar o suporte automático de modelagem de prompt fornecido pelo Clarify. SageMaker Se você desativar a modelagem automática de solicitações, o Clarify fornecerá a solicitação padrão (como linha de base em todos os conjuntos de dados dentro da mesma dimensão de avaliação) que você poderá modificar. Por exemplo, se o modelo de prompt padrão incluir a instrução Resumir o seguinte em uma frase, você poderá modificá-lo para Resumir o seguinte em menos de 100 palavras ou qualquer outra instrução que você queira usar.

Além disso, se você modificar uma solicitação para uma dimensão de avaliação, a mesma solicitação será aplicada a todos os conjuntos de dados usando essa mesma dimensão. Portanto, se você optar por aplicar o prompt, resuma o texto a seguir em 17 frases no conjunto de dados. Gigaword para medir a toxicidade, essa mesma instrução é usada para o conjunto de dados Government report para medir a toxicidade. Se quiser usar um prompt diferente para um conjunto de dados diferente (usando o mesmo tipo de tarefa e dimensão de avaliação), você pode usar os pacotes python fornecidos pelo. FMEval Para obter detalhes, consulte Personalize seu fluxo de trabalho usando a fmeval biblioteca.

exemplo Exemplo de um modelo de prompt atualizado usando o modelo de prompt

Imagine um cenário simples em que você tenha um conjunto de dados simples composto por apenas dois prompts e queira avaliá-los usando. meta-textgenerationneuron-llama-2-7b-f

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Como seus prompts são pares de perguntas e respostas, você escolhe o tipo de tarefa de resposta a perguntas (Q&A).

Ao escolher o modelo Prompt no Studio, você pode ver como o SageMaker Clarify formatará seus prompts de acordo com os requisitos do meta-textgenerationneuron-llama-2-7b-f JumpStart modelo.

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Para este modelo, o SageMaker Clarify complementará suas solicitações para conter o formato correto de solicitação adicionando as <<SYS>> tags [INST] e. Isso também aumentará sua solicitação inicial adicionando Respond to the following question. Valid answers are "True" or "False". para ajudar o modelo a responder melhor.

O texto fornecido pelo SageMaker Clarify pode não ser adequado para seu caso de uso. Para desativar os modelos de solicitação padrão, deslize a opção Modelos de solicitação padrão do conjunto de dados para Desativado.

Você pode editar o modelo de prompt para que fique alinhado com seu caso de uso. Por exemplo, você pode solicitar uma resposta curta em vez de um formato de resposta Verdadeiro/Falso, conforme mostrado na linha a seguir:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Agora, todos os conjuntos de dados de solicitação incorporados ou personalizados na dimensão de avaliação especificada usarão o modelo de solicitação que você especificou.

Trabalhos de avaliação de modelos que usam trabalhadores humanos

Você também pode empregar trabalhadores humanos para avaliar manualmente as respostas do modelo em relação a dimensões mais subjetivas, como utilidade ou estilo. Para criar um trabalho de avaliação de modelo que usa trabalhadores humanos, você deve usar o Studio.

Em um trabalho de avaliação de modelo que usa trabalhadores humanos, você pode comparar as respostas de até dois JumpStart modelos. Opcionalmente, você também pode especificar respostas de modelos externos ao. AWS Todos os trabalhos de avaliação de modelos que usam trabalhadores humanos exigem que você crie um conjunto de dados personalizado e o armazene no Amazon S3. Para saber mais sobre como criar dados de prompt personalizados, consulteCriar um trabalho de avaliação de modelo com a participação de operadores humanos.

No Studio, você pode definir os critérios que sua força de trabalho humana usa para avaliar as respostas dos modelos. Você também pode documentar as instruções de avaliação usando um modelo disponível no Studio. Além disso, você pode criar uma equipe de trabalho no Studio. A equipe de trabalho é formada por pessoas que você deseja que participem do seu trabalho de avaliação de modelos.