O que são avaliações de modelos de base?
O FMEval pode ajudá-lo a quantificar os riscos do modelo, como conteúdo impreciso, tóxico ou tendencioso. Avaliar seu LLM ajuda você a cumprir as diretrizes internacionais sobre IA generativa responsável, como a ISO 42001
As seções a seguir fornecem uma visão ampla geral dos métodos compatíveis com criar avaliações de modelos, visualizar os resultados de um trabalho de avaliação de modelos e analisar os resultados.
Tarefas de avaliação de modelo
Em um trabalho de avaliação de modelo, uma tarefa de avaliação é uma tarefa que você deseja que o modelo execute com base nas informações dos prompts. Você pode escolher um tipo de tarefa por trabalho de avaliação de modelo.
Tipos de tarefas compatíveis em trabalhos de avaliação de modelo
-
Geração aberta: A produção de respostas humanas naturais ao texto que não tem uma estrutura predefinida.
-
Resumo de texto: A geração de um resumo conciso e condensado, retendo o significado e as principais informações contidas em um texto maior.
-
Resposta a perguntas: A geração de uma resposta relevante e precisa a um prompt.
-
Classificação: Atribuição de uma categoria, como um rótulo ou uma pontuação, ao texto com base em seu conteúdo.
-
Personalizado: Permite que você defina dimensões de avaliação personalizadas para seu trabalho de avaliação de modelo.
Cada tipo de tarefa tem métricas específicas associadas a elas que você pode usar em trabalhos de avaliação de modelos automatizados. Para saber mais sobre as métricas associadas aos trabalhos de avaliação de modelo automáticos e aos trabalhos de avaliação de modelo que usam operadores humanos, consulte Usar conjuntos de dados de prompts e dimensões de avaliação disponíveis em trabalhos de avaliação de modelo .
Como atualizar os parâmetros de inferência
Os parâmetros de inferência são uma forma de influenciar a saída de um modelo sem precisar retreinar ou ajustar um modelo.
No trabalho de avaliação de modelo automático, você pode alterar a temperatura, o Top-p e o máximo de novos tokens do modelo.
Temperatura
Altera a quantidade de randomização nas respostas do modelo. Diminua a temperatura padrão para diminuir a quantidade de randomização e aumente para ter mais.
Top P
Durante a inferência, o modelo está gerando texto e escolhendo em uma lista de palavras para colocar a próxima palavra. A atualização do Top-p altera o número de palavras nessa lista com base em uma porcentagem. Diminuir o Top-p resulta em amostras mais determinísticas, enquanto um valor mais alto permitirá mais variabilidade e criatividade no texto gerado.
Máximo de novos tokens
Altera o comprimento da resposta que o modelo pode fornecer.
Você pode atualizar os parâmetros de inferência no Studio depois de adicionar o modelo ao seu trabalho de avaliação de modelo.
Trabalhos automáticos de avaliação de modelo
Os trabalhos de avaliação automática de modelos usam métricas baseadas em parâmetros de referência para medir respostas tóxicas, prejudiciais ou ruins aos seus clientes. As respostas do modelo são pontuadas usando conjuntos de dados integrados específicos para a tarefa, ou você pode especificar seu próprio conjunto de dados de prompts personalizado.
Para criar um trabalho de avaliação de modelo automático, você pode usar o Studio ou a biblioteca fmeval
Como alternativa, você pode implantar a biblioteca fmeval
em sua própria base de código e personalizar o trabalho de avaliação do modelo para seus próprios casos de uso.
Para entender melhor seus resultados, use o relatório gerado. O relatório inclui visualizações e exemplos. Você também visualiza os resultados salvos no bucket do Amazon S3 especificado ao criar o trabalho. Para saber mais sobre a estrutura dos resultados da consulta, consulte Entenda os resultados de um trabalho de avaliação automática.
Para usar um modelo que não está disponível publicamente no JumpStart, você deve usar a biblioteca fmeval
para executar o trabalho automático de avaliação de modelo. Para obter uma lista dos modelos do JumpStart, consulte Modelos de base disponíveis.
Modelos de prompt
Para ajudar a garantir que o modelo do JumpStart selecionado tenha um bom desempenho em todos os prompts, o SageMaker Clarify aumenta automaticamente seus prompts de entrada em um formato que funcione melhor para o modelo e as dimensões de avaliação que você selecionar. Para ver o modelo de prompt padrão fornecido pelo Clarify, escolha Modelo de prompt no cartão para a dimensão de avaliação. Se você selecionar, por exemplo, o tipo de tarefa Resumo de texto na interface do usuário, o Clarify exibirá, por padrão, um cartão para cada uma das dimensões de avaliação associadas: nesse caso, Precisão, Toxicidade e Robustez semântica. Nesses cartões, você pode configurar os conjuntos de dados e os modelos de prompt que o Clarify usa para medir essa dimensão de avaliação. Também é possível remover qualquer dimensão que não deseje usar.
Modelos de prompt padrão
O Clarify fornece uma seleção de conjuntos de dados que você pode usar para medir cada dimensão de avaliação. Você pode optar por usar um ou mais desses conjuntos de dados, ou fornecer seu próprio conjunto de dados personalizado. Se você usar os conjuntos de dados fornecidos pelo Clarify, também poderá usar os modelos de prompt inseridos pelo Clarify como padrão. Derivamos os prompts padrão analisando o formato de resposta em cada conjunto de dados e determinando os aumentos de consulta necessários para obter o mesmo formato de resposta.
O modelo de prompt fornecido pelo Clarify também depende do modelo selecionado. Você pode escolher um modelo ajustado para esperar instruções em locais específicos do prompt. Por exemplo, escolher o modelo meta-textgenerationneuron-llama-2-7b, o tipo de tarefa Resumo de texto e o conjunto de dados Gigaword mostra um modelo de prompt padrão do seguinte:
Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...
A escolha do modelo de chat de lhama meta-textgenerationneuron-llama-2-7b-f, por outro lado, mostra o seguinte modelo de prompt padrão:
[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]
Modelos de prompt personalizados
Na caixa de diálogo do modelo de prompt, você pode ativar ou desativar a compatibilidade com a modelagem automática prompt fornecida pelo SageMaker Clarify. Se você desativar a modelagem automática de prompt, o Clarify fornecerá o prompt padrão (como linha de base em todos os conjuntos de dados dentro da mesma dimensão de avaliação) que você poderá modificar. Por exemplo, se o modelo de prompt padrão incluir a instrução Resuma o seguinte em uma frase, você poderá modificá-la para Resuma o seguinte em menos de 100 palavras ou qualquer outra instrução que você queira usar:
Além disso, se você modificar um prompt para uma dimensão de avaliação, o mesmo prompt será aplicado a todos os conjuntos de dados que usam a mesma dimensão. Portanto, se você optar por aplicar o prompt Resuma o texto a seguir em 17 frases ao conjunto de dados Gigaword para medir a toxicidade, essa mesma instrução será usada para o conjunto de dados Government report medir a toxicidade. Se quiser usar um prompt diferente para um conjunto de dados diferente (usando o mesmo tipo de tarefa e dimensão de avaliação), você pode usar os pacotes Python fornecidos pelo FMEval. Para obter detalhes, consulte Personalize seu fluxo de trabalho usando a biblioteca fmeval.
exemplo Exemplo de um modelo de prompt atualizado usando o Modelo de prompt
Imagine um cenário simples em que você tenha um conjunto de dados simples composto por apenas dois prompts e queira avaliá-los usando meta-textgenerationneuron-llama-2-7b-f
.
{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }
Como seus prompts são pares de perguntas e respostas, você escolhe o tipo de tarefa de resposta a perguntas (P&R).
Ao escolher o Modelo de prompt no Studio, poderá ver como o SageMaker Clarify formatará seus prompts para que correspondam aos requisitos do modelo meta-textgenerationneuron-llama-2-7b-f
do JumpStart.
[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]
Para esse modelo, o SageMaker Clarify complementará seus prompts para conter o formato correto de prompt adicionando as tags [INST]
e <<SYS>>
. Isso também aumentará sua solicitação inicial ao adicionar Respond to the following
question. Valid answers are "True" or "False".
para ajudar o modelo a responder melhor.
O texto fornecido pelo SageMaker Clarify pode não ser adequado para seu caso de uso. Para desativar os modelos de prompt padrão, deslize a opção Modelos de prompt padrão do conjunto de dados para Desativado.
Você pode editar o modelo de prompt para que fique alinhado com seu caso de uso. Por exemplo, você pode solicitar uma resposta curta em vez de uma resposta em formato de verdadeiro/falso, conforme mostrado na linha a seguir:
[INST]<<SYS>>
Respond to the following question with a short response.
<<SYS>>Is himalaya the highest mountain in the world?[/INST]
Depois disso, todos os conjuntos de dados de prompts integrados ou personalizados na dimensão de avaliação especificada usarão o modelo de prompt que você especificou.
Trabalhos de avaliação de modelo com a participação de humanos
Você também pode empregar operadores humanos para avaliar manualmente as respostas do modelo em relação a dimensões mais subjetivas, como utilidade ou estilo. Para criar um trabalho de avaliação de modelo com a participação de operadores humanos, você deve usar o Studio.
Em um trabalho de avaliação de modelo com a participação de operadores humanos, você pode comparar as respostas de até dois modelos do JumpStart. Como opção, você também pode especificar respostas de modelos externos à AWS. Todos os trabalhos de avaliação de modelos que usam operadores humanos exigem que você crie um conjunto de dados de prompts personalizado e o armazene no Amazon S3. Para saber mais sobre como criar dados de prompt personalizado, consulteCriar um trabalho de avaliação de modelo com a participação de operadores humanos.
No Studio, você pode definir os critérios que sua força de trabalho humana usa para avaliar as respostas dos modelos. Você também pode documentar as instruções de avaliação usando um modelo disponível no Studio. Além disso, você pode criar uma equipe de trabalho no Studio. A equipe de trabalho é formada por pessoas que você deseja que participem do seu trabalho de avaliação de modelos.