Crie um trabalho de avaliação automática de modelos no Studio - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie um trabalho de avaliação automática de modelos no Studio

O assistente disponível no Studio orienta você na escolha de um modelo para avaliar, selecionar um tipo de tarefa, escolher métricas e conjuntos de dados e configurar os recursos necessários. Os tópicos a seguir mostram como formatar um conjunto de dados de entrada personalizado opcional, configurar seu ambiente e criar o trabalho de avaliação do modelo no Studio.

Se você usar um conjunto de dados integrado para avaliar seu modelo no Studio, o conjunto de dados será formatado corretamente. Para usar seu próprio conjunto de dados de prompt personalizado, ele deve ser um jsonlines arquivo, em que cada linha é um JSON objeto válido. Cada JSON objeto deve conter um único prompt.

Para ajudar a garantir que o JumpStart modelo selecionado tenha um bom desempenho, o SageMaker Clarify formata automaticamente todos os conjuntos de dados de solicitações no formato que funcione melhor para as dimensões de avaliação do modelo selecionadas. Para conjuntos de dados de solicitações integrados, o SageMaker Clarify também aumentará sua solicitação com texto instrucional adicional. Para ver como o SageMaker Clarify modificará as solicitações, escolha o modelo de solicitação nas dimensões de avaliação que você adicionou à tarefa de avaliação do modelo. Para ver um exemplo de como você pode modificar um modelo de prompt, consulte Exemplo de modelo de prompt.

O botão permite que você desative ou ative o suporte automático à modelagem de prompts que o SageMaker Clarify fornece para conjuntos de dados integrados. A desativação da modelagem automática de solicitações permite que você especifique seus próprios modelos de solicitação personalizados que serão aplicados a todas as solicitações em seu conjunto de dados.

Para saber quais chaves estão disponíveis para um conjunto de dados personalizado na interface do usuário, consulte as listas de tarefas a seguir.

  • model_input— Necessário indicar a entrada para as seguintes tarefas.

    • A solicitação à qual seu modelo deve responder em tarefas abertas de geração, toxicidade e precisão.

    • A pergunta que seu modelo deve responder em tarefas de resposta a perguntas e conhecimento factual.

    • O texto que seu modelo deve resumir em tarefas de resumo de texto.

    • O texto que seu modelo deve classificar nas tarefas de classificação.

    • O texto que você deseja que seu modelo perturbe em tarefas de robustez semântica.

  • target_output— Obrigatório para indicar a resposta com a qual seu modelo é avaliado para as seguintes tarefas.

    • A resposta para respostas a perguntas, precisão, robustez semântica e tarefas de avaliação factual.

    • Para tarefas de precisão e robustez semântica, separe as respostas aceitáveis com um. <OR> A avaliação aceita qualquer uma das respostas separadas por vírgula como correta. Como exemplo, usetarget_output="UK<OR>England<OR>United Kingdom", se você quiser aceitar uma ou UK England ou United Kingdom como respostas aceitáveis.

  • (Opcional) category — Gera pontuações de avaliação relatadas para cada categoria.

  • sent_less_input— Necessário para indicar a solicitação que contém menos preconceitos para tarefas de estereotipagem imediata.

  • sent_more_input— Necessário para indicar a solicitação que contém mais preconceitos para tarefas de estereotipagem imediata.

Uma avaliação de conhecimento factual exige que a pergunta a ser feita e a resposta sejam comparadas com a resposta do modelo. Use a chave model_input com o valor contido na pergunta e a chave target_output com o valor contido na resposta da seguinte forma:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

O exemplo anterior é um único JSON objeto válido que compõe um registro em um arquivo jsonlines de entrada. Cada JSON objeto é enviado ao seu modelo como uma solicitação. Para fazer várias solicitações, inclua várias linhas. O exemplo de entrada de dados a seguir se refere a uma tarefa de perguntas e respostas que usa uma chave category opcional para avaliação.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Se você avaliar seu algoritmo na interface do usuário, os seguintes padrões serão definidos para seu conjunto de dados de entrada:

  • O número de registros que a avaliação usa é fixo. O algoritmo coleta amostras aleatoriamente desse número de solicitações do seu conjunto de dados de entrada.

    • Para alterar esse número: use a fmeval biblioteca conforme descrito em Personalize seu fluxo de trabalho usando a fmeval biblioteca e defina o parâmetro num_records para o número desejado de amostras ou -1 para especificar o conjunto de dados inteiro. O número padrão de registros avaliados é 100 para tarefas de precisão, estereotipagem imediata, toxicidade, classificação e robustez semântica. O número padrão de registros para uma tarefa de conhecimento factual é300.

  • O delimitador de saída de destino, conforme descrito anteriormente no target_output parâmetro, está definido como <OR> na interface do usuário.

    • Para separar as respostas aceitáveis usando outro delimitador: use a fmeval biblioteca conforme descrito em Personalizar seu fluxo de trabalho usando a fmeval biblioteca e defina o parâmetro target_output_delimiter para o delimitador desejado.

  • Você deve usar um modelo de JumpStart linguagem baseado em texto que esteja disponível para avaliação do modelo. Esses modelos têm vários parâmetros de configuração de entrada de dados que são passados automaticamente para o FMeval processo.

    • Para usar outro tipo de modelo: use a fmeval biblioteca para definir a configuração de dados para seu conjunto de dados de entrada.

Para executar uma avaliação automática para seu modelo de linguagem grande (LLM), você deve configurar seu ambiente para ter as permissões corretas para executar uma avaliação. Em seguida, você pode usar a interface do usuário para guiá-lo pelas etapas do fluxo de trabalho e realizar uma avaliação. As seções a seguir mostram como usar a interface do usuário para executar uma avaliação automática.

Pré-requisitos
  • Para executar uma avaliação de modelo em uma interface de usuário do Studio, sua função AWS Identity and Access Management (IAM) e qualquer conjunto de dados de entrada devem ter as permissões corretas. Se você não tiver um SageMaker domínio ou IAM função, siga as etapas emGuia para se configurar com a Amazon SageMaker.

Para definir permissões para seu bucket do S3

Depois que seu domínio e função forem criados, use as etapas a seguir para adicionar as permissões necessárias para avaliar seu modelo.

  1. Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/.

  2. No painel de navegação, entre S3 na barra de pesquisa na parte superior da página.

  3. Escolha S3 em Serviços.

  4. Escolha Buckets no painel de navegação.

  5. Na seção Buckets de uso geral, em Nome, escolha o nome do bucket do Amazon S3 que você deseja usar para armazenar seu conjunto de dados de prompt personalizado e onde deseja que os resultados do seu trabalho de avaliação do modelo sejam salvos. Seu bucket do Amazon S3 deve estar na Região da AWS mesma instância do Studio. Se você não tiver um bucket Amazon S3, faça o seguinte.

    1. Selecione Criar compartimento para abrir uma nova página Criar compartimento.

    2. Na seção Configuração geral, em AWS Região, selecione a AWS região em que seu modelo de fundação está localizado.

    3. Nomeie seu bucket do S3 na caixa de entrada em Nome do bucket.

    4. Aceite todas as opções padrão.

    5. Selecione Criar bucket.

    6. Na seção Buckets de uso geral, em Nome, selecione o nome do bucket do S3 que você criou.

  6. Escolha a aba Permissões.

  7. Role até a seção Compartilhamento de recursos entre origens (CORS) na parte inferior da janela. Selecione a opção Editar.

  8. Para adicionar as CORS permissões ao seu bucket, copie o código a seguir na caixa de entrada.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Escolha Salvar alterações.

Para adicionar permissões à sua IAM política
  1. Na barra de pesquisa na parte superior da página, digiteIAM.

  2. Em Serviços, selecione Identity and Access Management (IAM).

  3. Escolha Políticas no painel de navegação.

  4. Escolha Criar política. Quando o editor de políticas abrir, escolha JSON.

  5. Escolha Próximo.

  6. Certifique-se de que as seguintes permissões apareçam no editor de políticas. Você também pode copiar e colar o seguinte no editor de políticas.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Escolha Próximo.

  8. Insira o nome da política na seção Detalhes da política, em Nome da política. Você também pode inserir uma descrição opcional. Você pesquisará esse nome de política ao atribuí-la a uma função.

  9. Escolha Criar política.

Para adicionar permissões à sua IAM função
  1. Selecione Roles (Funções) no painel de navegação. Insira o nome da função que você deseja usar.

  2. Selecione o nome da função em Nome da função. A janela principal muda para mostrar informações sobre sua função.

  3. Na seção Políticas de permissões, escolha a seta para baixo ao lado de Adicionar permissões.

  4. Nas opções exibidas, escolha Anexar políticas.

  5. Na lista de políticas que aparece, procure a política que você criou na Etapa 5. Marque a caixa de seleção ao lado do nome da sua política.

  6. Escolha a seta para baixo ao lado de Ações.

  7. Nas opções exibidas, selecione Anexar.

  8. Pesquise o nome da função que você criou. Marque a caixa de seleção ao lado do nome.

  9. Escolha Add permissions (Adicionar permissões). Um banner na parte superior da página deve indicar que a política foi anexada com sucesso à função.

  • .

Ao criar um trabalho de avaliação automática de modelos, você pode escolher entre os JumpStart modelos baseados em texto disponíveis ou usar um JumpStart modelo baseado em texto que você já implantou em um endpoint.

Para criar um trabalho de avaliação automática do modelo, use o procedimento a seguir.

Para iniciar um trabalho de avaliação automática de modelos no Studio.
  1. Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/.

  2. Na barra de pesquisa na parte superior da página, digiteSageMaker.

  3. Em Serviços, selecione Amazon SageMaker.

  4. Escolha Studio no painel de navegação.

  5. Escolha seu domínio na seção Começar, depois de expandir a seta para baixo em Selecionar domínio.

  6. Escolha seu perfil de usuário na seção Começar depois de expandir a seta para baixo em Selecionar perfil de usuário.

  7. Escolha Open Studio para abrir a página inicial do Studio.

  8. Escolha Trabalhos no painel de navegação principal.

  9. Em seguida, escolha Avaliação do modelo.

Para configurar um trabalho de avaliação
  1. Em seguida, escolha Avaliar um modelo,.

  2. Na Etapa 1: Especificar detalhes do trabalho, faça o seguinte:

    1. Insira o nome da avaliação do seu modelo. Esse nome ajuda você a identificar seu trabalho de avaliação de modelo após o envio.

    2. Insira uma Descrição para adicionar mais contexto ao nome.

    3. Escolha Próximo.

  3. Na Etapa 2: Configurar a avaliação, faça o seguinte:

    1. Em Tipo de avaliação, escolha Automático.

    2. Em seguida, escolha Adicionar modelo à avaliação

    3. No modal Adicionar modelo, você pode optar por usar um modelo básico ou um endpoint pré-treinado do Jumpstart. SageMaker Se você já implantou o modelo, escolha o SageMaker endpoint, caso contrário, escolha o JumpStart modelo básico Jumpstart pré-treinado.

    4. Selecione Salvar.

    5. (Opcional) Depois de adicionar seu modelo, escolha Modelo de solicitação para ver o formato de entrada esperado para solicitações com base no modelo selecionado. Para obter informações sobre como configurar um modelo de prompt para um conjunto de dados, consulteModelos de prompt.

      • Para usar o modelo de prompt padrão, conclua as seguintes etapas:

        1. Ative a opção Usar os modelos de solicitação padrão fornecidos pelos conjuntos de dados.

        2. (Opcional) Para cada conjunto de dados, revise a solicitação fornecida pelo Clarify.

        3. Escolha Salvar.

      • Para usar um modelo de prompt personalizado, conclua as seguintes etapas:

        1. Desative Usar os modelos de prompt padrão fornecidos pelos conjuntos de dados.

        2. Se o Clarify exibir um prompt padrão, você poderá personalizá-lo ou removê-lo e fornecer o seu próprio. Você deve incluir a $model_input variável no modelo de prompt.

        3. Escolha Salvar.

    6. Em seguida, em Tipo de tarefa, escolha um tipo de tarefa.

      Para obter mais informações sobre os tipos de tarefas e as dimensões de avaliação associadas, consulte a Avaliação automática em Usando conjuntos de dados imediatos e dimensões de avaliação disponíveis em trabalhos de avaliação de modelos .

    7. Na seção Métricas de avaliação, escolha uma dimensão de avaliação. A caixa de texto em Descrição contém contexto adicional sobre a dimensão.

      Depois de selecionar uma tarefa, as métricas associadas à tarefa aparecem em Métricas. Nesta seção, faça o seguinte.

    8. Selecione uma dimensão de avaliação na seta para baixo em Dimensão de avaliação.

    9. Escolha um conjunto de dados de avaliação. Você pode escolher usar seu próprio conjunto de dados ou usar um conjunto de dados incorporado. Se você quiser usar seu próprio conjunto de dados para avaliar o modelo, ele deverá ser formatado de uma forma que FMEval possa ser usada. Ele também deve estar localizado em um bucket do S3 que tenha as CORS permissões mencionadas na seção anteriorConfigurar o ambiente. Para obter mais informações sobre como formatar um conjunto de dados personalizado, consulteUse um conjunto de dados de entrada personalizado.

    10. Insira um local do bucket do S3 onde você deseja salvar os resultados da avaliação de saída. Esse arquivo está no formato jsonlines (.jsonl).

    11. Configure seu processador na seção Configuração do processador usando os seguintes parâmetros:

      • Use a contagem de instâncias para especificar o número de instâncias de computação que você quer usar para executar seu modelo. Se você usar mais de uma 1 instância, seu modelo será executado em instâncias paralelas.

      • Use o tipo de instância para escolher o tipo de instância de computação que você quer usar para executar seu modelo. Para obter mais informações sobre os tipos de instância, consulteTipos de instância disponíveis para uso com o Studio Classic.

      • Use a KMS tecla de volume para especificar sua chave de criptografia AWS Key Management Service (AWS KMS). SageMaker usa sua AWS KMS chave para criptografar o tráfego de entrada do modelo e do seu bucket Amazon S3. Para obter mais informações sobre chaves, consulte AWS Key Management Service.

      • Use a KMSchave de saída para especificar sua chave AWS KMS de criptografia para o tráfego de saída.

      • Use IAMRole para especificar o acesso e as permissões para o processador padrão. Insira a IAM função que você configurou no Configurar o ambiente

    12. Depois de especificar o modelo e os critérios, escolha Avançar. A janela principal pula para a Etapa 5 Revisar e Salvar.

Revise e execute seu trabalho de avaliação
  1. Revise todos os parâmetros, modelos e dados que você selecionou para sua avaliação.

  2. Escolha Criar recurso para executar sua avaliação.

  3. Para verificar o status do seu trabalho, vá para a parte superior da seção Avaliações de modelos na página.