Crie um trabalho de avaliação de modelo com a participação de operadores humanos

Importante

Políticas personalizadas do IAM que permitem que o Amazon SageMaker SageMaker Studio ou o Amazon Studio Classic criem SageMaker recursos da Amazon também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma política do IAM permitir que o Studio e o Studio Classic criem recursos, mas não permitisse a marcação, erros AccessDenied "" podem ocorrer ao tentar criar recursos. Para obter mais informações, consulte Forneça permissões para marcar recursos de SageMaker IA.

AWS políticas gerenciadas para Amazon SageMaker AIque dão permissões para criar SageMaker recursos já incluem permissões para adicionar tags ao criar esses recursos.

Para criar um trabalho de avaliação de modelo com a participação de operadores humanos, é necessário configurar o ambiente para ter as permissões corretas. Em seguida, você pode usar o assistente do trabalho de avaliação de modelo no Studio para selecionar os modelos que deseja usar e, em seguida, definir os parâmetros e a força de trabalho que deseja usar no trabalho de avaliação de modelo.

Quando o trabalho estiver concluído, você poderá ver um relatório para entender como sua força de trabalho avaliou os modelos selecionados. Os resultados também são salvos no Amazon S3 como um arquivo jsonlines de saída.

Em um trabalho de avaliação de modelo que usa trabalhadores humanos, você tem a capacidade de trazer dados de inferência de modelos hospedados fora da SageMaker IA e modelos hospedados fora dela. AWS Para saber mais, consulte Usar seus próprios dados de inferência em trabalhos de avaliação de modelo com a participação de operadores humanos.

Quando seus trabalhos são concluídos, os resultados são salvos no bucket do Amazon S3 especificado quando o trabalho foi criado. Para saber como interpretar seus resultados, consulte Entenda os resultados do trabalho de avaliação de modelo.

Pré-requisitos

Para executar uma avaliação de modelo na interface do usuário do Amazon SageMaker Studio, sua função AWS Identity and Access Management (IAM) e qualquer conjunto de dados de entrada devem ter as permissões corretas. Se você não tiver um domínio de SageMaker AI ou uma função do IAM, siga as etapas emGuia para se configurar com o Amazon SageMaker AI.

Como configurar suas permissões

A seção a seguir mostra como criar um bucket do Amazon S3 e como especificar as permissões corretas de compartilhamento de recursos de origem cruzada (CORS).

Para criar um bucket do Amazon S3 e especificar as permissões CORS

Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
No painel de navegação, insira S3 na barra de pesquisa da parte superior da página.
Escolha S3 em Serviços.
Escolha Buckets no painel de navegação.
Na seção Buckets de uso geral, em Nome, escolha o nome do bucket do S3 que você deseja usar para armazenar a entrada e a saída do modelo no console. Se você não tiver um bucket do S3, faça o seguinte:
1. Selecione Criar bucket para abrir a nova página Criar bucket.
2. Na seção Configuração geral, em Região da AWS , selecione a região da AWS em que seu modelo de base está localizado.
3. Nomeie seu bucket do S3 no campo de inserção Nome do bucket.
4. Aceite todas as opções padrão.
5. Selecione Criar bucket.
6. Na seção Buckets de uso geral, em Nome, selecione o nome do bucket do S3 que você criou.
Escolha a aba Permissões.
Role até a seção Compartilhamento de recursos de origem cruzada (CORS) na parte inferior da janela. Selecione Editar.

A seguir, está a política de CORS mínima exigida que você deve adicionar ao seu bucket do Amazon S3. Copie e cole o seguinte no campo de inserção:


[
{
    "AllowedHeaders": ["*"],
    "AllowedMethods": [
        "GET",
        "HEAD",
        "PUT"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
      "Access-Control-Allow-Origin"
    ],
    "MaxAgeSeconds": 3000
}
]

Escolha Salvar alterações.

Para adicionar permissões à sua política do IAM

Talvez você queira considerar o nível das permissões a serem anexadas ao seu perfil do IAM.

Você pode criar uma política do IAM personalizada que permita as permissões mínimas necessárias para esse serviço.
Você pode anexar as políticas AmazonSageMakerFullAccess e AmazonS3FullAccess existentes ao seu perfil do IAM, o que é mais permissivo. Para obter mais informações sobre a AmazonSageMakerFullAccess política, consulte AmazonSageMakerFullAccess.

Se quiser anexar as políticas existentes ao seu perfil do IAM, você pode pular as instruções definidas aqui e continuar seguindo as instruções em Para adicionar permissões ao seu perfil do IAM.

As instruções a seguir criam uma política do IAM personalizada com as permissões mínimas para esse serviço.

Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
Na barra de pesquisa da parte superior da tela, insira IAM.
Em Serviços, selecione Identity and Access Management (IAM).
Escolha Políticas no painel de navegação.
Escolha Criar política. Quando o Editor de políticas abrir, escolha JSON.

Certifique-se de que as seguintes permissões apareçam no Editor de políticas: Você também pode copiar e colar o seguinte no Editor de políticas:


{
"Version": "2012-10-17",
"Statement":
    [{
        "Effect": "Allow",
        "Action": [
            "s3:GetObject",
            "s3:PutObject",
            "s3:ListBucket"
        ],
        "Resource": [
            "arn:aws:s3:::{input_bucket}/*",
            "arn:aws:s3:::{input_bucket}",
            "arn:aws:s3:::{output_bucket}/*",
            "arn:aws:s3:::{output_bucket}",
            "arn:aws:s3:::jumpstart-cache-prod-{region}/*",
            "arn:aws:s3:::jumpstart-cache-prod-{region}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:CreateEndpoint",
            "sagemaker:DeleteEndpoint",
            "sagemaker:CreateEndpointConfig",
            "sagemaker:DeleteEndpointConfig"
        ],
        "Resource": [
            "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*",
            "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*"
        ],
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeProcessingJob",
            "sagemaker:DescribeEndpoint",
            "sagemaker:InvokeEndpoint"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeInferenceComponent",
            "sagemaker:AddTags",
            "sagemaker:CreateModel",
            "sagemaker:DeleteModel"
        ],
        "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*",
        "Condition": {
            "ForAnyValue:StringEquals": {
                "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id"
            }
        }
    },
    {
        "Effect": "Allow",
        "Action": [
            "sagemaker:DescribeFlowDefinition",
            "sagemaker:StartHumanLoop",
            "sagemaker:DescribeHumanLoop"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "logs:CreateLogStream",
            "logs:PutLogEvents",
            "logs:CreateLogGroup",
            "logs:DescribeLogStreams"
        ],
        "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "cloudwatch:PutMetricData"
        ],
        "Resource":"*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "ecr:GetAuthorizationToken",
            "ecr:BatchCheckLayerAvailability",
            "ecr:GetDownloadUrlForLayer",
            "ecr:BatchGetImage"
        ],
        "Resource": "*"
    },
    {
        "Effect": "Allow",
        "Action": [
            "kms:DescribeKey",
            "kms:GetPublicKey",
            "kms:Decrypt",
            "kms:Encrypt"
        ],
        "Resource": [
            "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "iam:PassRole"
        ],
        "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}",
        "Condition": {
            "StringEquals": {
                "aws:PrincipalAccount": [
                    "account-id"
                ]
            }
        }
    }]
}

Escolha Próximo.
Insira o nome da política na seção Detalhes da política, em Nome da política. Você também pode inserir uma descrição opcional. Você pesquisará esse nome ao atribuí-la a uma função.
Escolha Criar política.

Para adicionar permissões ao seu perfil do IAM

Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
Na barra de pesquisa da parte superior da tela, insira IAM.
Em Serviços, selecione Identity and Access Management (IAM).
Selecione Roles (Funções) no painel de navegação.
Se você estiver criando um novo perfil:
1. Selecione Criar perfil.
2. Na etapa Selecionar entidade confiável, em Tipo de entidade confiável, escolha Política de confiança personalizada.
3. No editor de política de confiança personalizada, ao lado de Adicionar entidade principal, escolha Adicionar.
4. Na caixa pop-up Adicionar entidade principal, em Tipo de entidade principal, selecione Serviços da AWS na lista suspensa de opções.
5. Em ARN, {ServiceName} substitua por sagemaker.
6. Selecione Adicionar entidade principal.
7. Escolha Próximo.
8. (Opcional) Em Políticas de permissões, selecione as políticas que você gostaria de adicionar ao seu perfil.
9. (Opcional) Em Definir limite de permissões: opcional, escolha sua configuração de limite de permissão.
10. Escolha Próximo.
11. Na etapa Nomear, revisar e criar, em Detalhes da função, preencha com o nome e a descrição da função.
12. (Opcional) Em Adicionar tags: opcional, você pode adicionar tags escolhendo Adicionar nova tag e inserindo um par de chave e valor opcional.
13. Examine suas configurações.
14. Selecione Criar perfil.
Se você estiver adicionando a política a uma função existente:
1. Selecione o nome da função em Nome do perfil. A janela principal muda para mostrar informações sobre sua função.
2. Na seção Políticas de permissões, escolha a seta para baixo próxima ao Adicionar permissões.
3. A partir das opções exibidas, escolha Anexar políticas.
4. Na lista de políticas que aparece, pesquise e selecione a política que você criou em Para adicionar permissões à sua política do IAM e marque a caixa de seleção ao lado do nome da sua política. Se você não criou uma política personalizada do IAM, pesquise e marque as caixas de seleção ao lado das políticas AmazonSageMakerFullAccess e AmazonS3FullAccess fornecidas pela AWS . Talvez você queira considerar o nível das permissões a serem anexadas ao seu perfil do IAM. As instruções para a política personalizada do IAM são menos permissivas, enquanto a última é mais permissiva. Para obter mais informações sobre a AmazonSageMakerFullAccess política, consulte AmazonSageMakerFullAccess.
5. Escolha Adicionar permissões. Um banner na parte superior da página deve dizer A política foi anexada com êxito à função. quando concluído.

Para adicionar uma política de confiança ao seu perfil do IAM

A política de confiança a seguir faz com que os administradores possam permitir que a SageMaker IA assuma a função. Você precisa adicionar a política ao seu perfil do IAM. Para isso, siga as seguintes etapas:

Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
Na barra de pesquisa da parte superior da tela, insira IAM.
Em Serviços, selecione Identity and Access Management (IAM).
Selecione Roles (Funções) no painel de navegação.
Selecione o nome da função em Nome do perfil. A janela principal muda para mostrar informações sobre sua função.
Selecione a guia Relação de confiança.
Escolha Editar política de confiança.

Certifique-se de que a política a seguir apareça em Editar política de confiança. Você também pode copiar e colar o seguinte no editor:


{
"Version": "2012-10-17",
"Statement": [
    {
        "Sid": "",
        "Effect": "Allow",
        "Principal": {
            "Service": [
                "sagemaker.amazonaws.com"
            ]
        },
        "Action": "sts:AssumeRole"
    }
]
}

Escolha Atualizar política. Um banner na parte superior da página deve dizer Política de confiança atualizada. quando concluído.

Você pode criar um trabalho de avaliação humana usando um modelo baseado em texto que está disponível em JumpStart ou usar um JumpStart modelo que você implantou anteriormente em um endpoint.

Para lançar JumpStart

Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.
Na barra de pesquisa da parte superior da tela, insira SageMaker AI.
Em Serviços, selecione Amazon SageMaker AI.
Do painel de navegação, escolha Studio.
Escolha seu domínio na seção Começar, depois de expandir a seta para baixo em Selecionar domínio.
Escolha seu perfil de usuário na seção Começar depois de expandir a seta para baixo em Selecionar perfil de usuário.
Escolha Abrir Studio para abrir a página inicial do Studio.
No painel de navegação, escolha Trabalhos.

Para configurar um trabalho de avaliação

Na página inicial de avaliação do modelo, escolha Avaliar um modelo
Especifique os detalhes do trabalho.
1. Insira o nome da avaliação da sua avaliação de modelo. Esse nome ajuda você a identificar seu trabalho de avaliação de modelo após o envio.
2. Insira uma Descrição para adicionar mais contexto ao nome.
3. Escolha Próximo.
Configurar a avaliação
1. Em Escolha um tipo de avaliação, selecione o botão de opção ao lado de Humana.
2. Em Escolha os modelos que você deseja avaliar, selecione Adicionar modelo à avaliação. Você pode avaliar até dois modelos para cada avaliação.
  1. Para usar um modelo pré-treinado, escolha JumpStart Modelo de JumpStart fundação pré-treinado. Se você quiser usar um JumpStart modelo implantado anteriormente em um endpoint, escolha Endpoints with JumpStart foundation models.
  2. Se o modelo exigir um contrato legal, marque a caixa de seleção para confirmar que você concorda.
  3. Para adicionar outro modelo, repita a etapa anterior.
3. Para alterar o comportamento do modelo durante a inferência, escolha Definir parâmetros.
  
  O conjunto de parâmetros contém uma lista de parâmetros de inferência que afetam o grau de aleatoriedade na saída do modelo, o comprimento da saída do modelo e as palavras que o modelo escolherá em seguida.
4. Em seguida, selecione um tipo de tarefa. Você pode selecionar qualquer uma das seguintes opções:
  - Resumo de texto
  - Perguntas e respostas
  - Classificação de texto
  - Geração aberta
  - Personalizado
5. Na seção Métricas de avaliação, escolha uma dimensão de avaliação e insira contexto adicional sobre a dimensão na caixa de texto em Descrição. Você pode escolher entre as seguintes dimensões:
  - Fluência: Mede a qualidade linguística de um texto gerado.
  - Coerência: Mede a organização e a estrutura de um texto gerado.
  - Toxicidade: Mede a nocividade de um texto gerado.
  - Precisão: Indica a precisão de um texto gerado.
  - Uma dimensão de avaliação personalizada da qual você pode definir o nome e a descrição para sua equipe de trabalho.
    
    Para adicionar uma dimensão de avaliação personalizada, faça o seguinte:
    Escolha Adicionar uma dimensão de avaliação.
    
    Na caixa de texto contendo Forneça uma dimensão de avaliação, insira o nome da sua dimensão personalizada.
    
    Na caixa de texto contendo Forneça uma descrição para a dimensão de avaliação, insira uma descrição para que sua equipe de trabalho entenda como avaliar sua dimensão personalizada.
  Abaixo de cada uma dessas métricas, há métricas de relatórios que você pode escolher a partir da seta para baixo Escolha um tipo de métrica. Se você tiver dois modelos para avaliar, poderá escolher métricas de relatórios comparativas ou individuais. Se tiver um modelo para avaliar, poderá escolher somente métricas de relatórios individuais. Você pode escolher os seguintes tipos de métricas de relatório para cada uma das métricas acima:
  - (Comparativo) Escala Likert: comparação: Um avaliador humano indicará sua preferência entre duas respostas em uma escala Likert de cinco pontos, de acordo com as instruções que você definiu. Os resultados no relatório final serão mostrados como um histograma das classificações de intensidade da preferência dos avaliadores em todo o conjunto de dados. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas de acordo com suas expectativas. Na saída JSON salva no Amazon S3, essa escolha é representada como ComparisonLikertScale, o par de valores-chave "evaluationResults":"ComparisonLikertScale".
  - (Comparativo) Botões de escolha: Permitem que um avaliador humano indique sua única resposta preferida em relação a outra resposta. Os avaliadores usam botões de opções para indicar sua preferência entre duas respostas de acordo com as instruções que você definiu. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique claramente o método de avaliação nas instruções. Na saída JSON salva no Amazon S3, essa escolha é representada como ComparisonChoice, o par de valores-chave "evaluationResults":"ComparisonChoice".
  - (Comparativo) Classificação ordinal: Permite que um avaliador humano classifique suas respostas preferenciais a um prompt, começando com 1, de acordo com as instruções definidas por você. Os resultados no relatório final serão mostrados como um histograma das classificações dos avaliadores em todo o conjunto de dados. Defina o que significa uma classificação 1 em suas instruções. Na saída JSON salva no Amazon S3, essa escolha é representada como ComparisonRank, o par de valores-chave "evaluationResults":"ComparisonRank".
  - (Individual) Polegar para cima/para baixo: permite que um avaliador humano classifique cada resposta de um modelo como aceitável/inaceitável de acordo com as instruções definidas por você. Os resultados no relatório final serão mostrados como uma porcentagem do número total de classificações dos avaliadores que receberam uma avaliação positiva (polegar para cima) para cada modelo. Você pode usar esse método de classificação para avaliar um ou mais modelos. Se você usar isso em uma avaliação que contém dois modelos, um polegar para cima/para baixo será apresentado à equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é aceitável como avaliação positiva ou negativa em suas instruções. Na saída JSON salva no Amazon S3, essa escolha é representada como ThumbsUpDown, o par de valores-chave "evaluationResults":"ThumbsUpDown".
  - (Individual) Escala Likert: individual: Permite que um avaliador humano indique com que intensidade ele aprova a resposta do modelo com base em suas instruções em uma escala Likert de cinco pontos. Os resultados no relatório final serão mostrados como um histograma das classificações de cinco pontos dos avaliadores em relação a todo o conjunto de dados. Você pode usar a escala em uma avaliação que contém um ou mais modelos. Se você selecionar esse método de classificação para uma avaliação que contém mais de um modelo, uma escala Likert de cinco pontos será apresentada à equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes da escala de cinco pontos nas instruções, para que os avaliadores saibam como classificar as respostas com base em suas expectativas. Na saída JSON salva no Amazon S3, essa escolha é representada como IndividualLikertScale, o par de valores-chave "evaluationResults":"IndividualLikertScale".
6. Escolha um Conjunto de dados de prompt. Esse conjunto de dados é obrigatório e será usado por sua equipe de trabalho humana para avaliar as respostas do seu modelo. Forneça o URI do S3 para um bucket do Amazon S3 que contém seu conjunto de dados de prompts na caixa de texto em URI do S3 para seu arquivo de conjunto de dados de entrada. Seu conjunto de dados deve estar no formato jsonlines e conter as seguintes chaves para identificar quais partes do conjunto de dados a interface de usuário usará para avaliar seu modelo:
  - prompt: A solicitação para a qual você deseja que seu modelo gere uma resposta.
  - (Opcional) category: Os rótulos da categoria para seu prompt. A chave category é usada para categorizar seus prompts para que você possa filtrar os resultados da avaliação posteriormente por categoria para uma compreensão mais profunda dos resultados da avaliação. Não participa da avaliação em si, e os operadores não veem isso na interface de avaliação.
  - (Opcional) referenceResponse: A resposta de referência para seus avaliadores humanos. A resposta de referência não é avaliada por seus funcionários, mas pode ser usada para entender quais respostas são aceitáveis ou inaceitáveis, com base em suas instruções.
  - (Opcional) responses — Usado para especificar inferências de um modelo fora ou fora da SageMaker AWS IA.
    
    Esse objeto requer dois pares de valores-chave adicionais "modelIdentifier, que são uma string que identifica o modelo e, "text", que é a inferência do modelo.
    
    Se você especificar uma chave "responses" em qualquer entrada do conjunto de dados de prompts personalizado, isso deverá ser especificado em todas as entradas.
  - O exemplo de código json a seguir mostra os pares de valores-chave aceitos em um conjunto de dados de prompts personalizado. A caixa de seleção Traga sua própria inferência deve ser marcada se uma chave de respostas for fornecida. Se marcada, a chave responses deve sempre ser especificada em cada prompt. O exemplo a seguir pode ser usado em um cenário de perguntas e respostas.
```
{
    "prompt": {
        "text": "Aurillac is the capital of"
    },
    "category": "Capitals",
    "referenceResponse": {
        "text": "Cantal"
    },
    "responses": [
        // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required.
        {
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",
            "text": "The capital of Aurillac is Cantal."
        }
    ]
}
```
7. Insira o local do bucket do S3 onde você deseja salvar os resultados da avaliação de saída na caixa de texto em Escolha um local do S3 para salvar os resultados da avaliação. O arquivo de saída gravado nesse local do S3 estará no formato JSON, terminando com a extensão .json.
8. nota
  Se você quiser usar seus próprios dados de inferência no trabalho de avaliação do modelo, só poderá usar um único modelo.
  
  (Opcional) Marque a caixa de seleção em Traga sua própria inferência para indicar que seu conjunto de dados de prompts contém a chave responses. Se você especificar a chave responses como parte de um prompt, ela deverá estar presente em todos eles.
9. Configure seu processador na seção Configuração do processador usando os seguintes parâmetros:
  - Use a contagem de instâncias para especificar o número de instâncias de computação a serem usadas para executar seu modelo. Se você usar mais de uma instância 1, seu modelo será executado em instâncias paralelas.
  - Use o tipo de instância para escolher o tipo de instância de computação que você quer usar para executar seu modelo. AWS tem instâncias gerais de computação e instâncias otimizadas para computação e memória. Para obter mais informações sobre os tipos de instâncias, consulte Tipos de instância disponíveis para uso com o Studio Classic.
  - Se você quiser que a SageMaker IA use sua própria chave de criptografia AWS Key Management Service (AWS KMS) em vez da chave de serviço AWS gerenciado padrão, alterne para selecionar Ativado em Chave de volume KMS e insira a chave. AWS KMS SageMaker A IA usará sua AWS KMS chave para criptografar dados no volume de armazenamento. Para obter mais informações sobre chaves, consulte AWS Key Management Service.
  - Se você quiser que a SageMaker IA use sua própria chave de criptografia AWS Key Management Service (AWS KMS) em vez da chave de serviço AWS gerenciado padrão, alterne para selecionar Ativado em Chave KMS de saída e insira a chave. AWS KMS SageMaker A IA usará sua AWS KMS chave para criptografar a saída do trabalho de processamento.
  - Use um perfil do IAM para especificar o acesso e as permissões para o processador padrão. Insira o perfil do IAM que você configurou na seção Configurar seu perfil do IAM de Executar uma avaliação humana.
10. Depois de especificar o modelo e os critérios, selecione Avançar.

Sua equipe de trabalho consiste nas pessoas que estão avaliando seu modelo. Depois que sua equipe de trabalho é criada, ela se mantém e você não poderá alterar seus atributos. As instruções a seguir mostram como começar com sua equipe de trabalho.

Configure sua equipe de trabalho

Escolha uma equipe existente ou crie uma nova equipe na caixa de texto Selecionar equipe.
Especifique o nome da sua organização em Nome da organização. Esse campo só aparece quando você cria a primeira equipe de trabalho na conta.
Especifique um e-mail de contato. Seus funcionários usarão esse e-mail para se comunicar com você sobre a tarefa de avaliação que você fornecerá a eles. Esse campo só aparece quando você cria a primeira equipe de trabalho na conta.
Especifique um nome em Nome da equipe. Você não pode alterar esse nome depois.
Especifique uma lista de endereços de e-mail para cada um de seus funcionários humanos que avaliarão seu grande modelo de linguagem (LLM). Quando você especifica os endereços de e-mail para sua equipe, eles são notificados sobre um novo trabalho somente quando são adicionados recentemente a uma equipe de trabalho. Se você usar a mesma equipe para um trabalho posterior, deverá notificá-los manualmente.
Em seguida, especifique o número de operadores por prompt

Forneça instruções para sua equipe de trabalho

Forneça instruções detalhadas à sua força de trabalho humana para que ela possa avaliar seu modelo de acordo com suas métricas e padrões. Um modelo na janela principal mostra exemplos de instruções que você pode fornecer. Para obter mais informações sobre como dar instruções, consulte Criação de boas instruções para os operadores.
Para minimizar o desvio em sua avaliação humana, marque a caixa de seleção ao lado de Randomizar posições de resposta.
Escolha Próximo.

Você pode revisar o resumo das seleções que fez para seu trabalho humano. Se você precisar mudar de emprego, escolha Anterior para voltar a uma seleção anterior.

Envie sua solicitação de trabalho de avaliação e veja o progresso do trabalho

Para enviar sua solicitação de trabalho de avaliação, escolha Criar recurso.
Para visualizar o status de todos os seus trabalhos, escolha Trabalhos no painel de navegação. Em seguida, escolha Avaliação do modelo. O status da avaliação é exibido como Concluído, Falha ou Em andamento.

O seguinte também é exibido:
- Exemplos de cadernos para executar uma avaliação de modelo em SageMaker AI e Amazon Bedrock.
- Links para informações adicionais, incluindo documentação, vídeos, notícias e blogs sobre o processo de avaliação do modelo.
- O URL do Portal particular do operador também está disponível.
Selecione sua avaliação de modelo em Nome para ver um resumo de sua avaliação.
- O resumo fornece informações sobre o status do trabalho, que tipo de tarefa de avaliação você executou em qual modelo e quando ela foi executada. Após o resumo, as pontuações da avaliação humana são classificadas e resumidas por métrica.

Visualize o boletim de um trabalho de avaliação de modelo com a participação de operadores humanos

Para ver o relatório dos seus trabalhos, escolha Trabalhos no painel de navegação.
Em seguida, escolha Avaliação do modelo. Na página inicial de avaliações de modelos, use a tabela para encontrar seu trabalho de avaliação de modelos. Depois que o status do trabalho for alterado para Concluído, você poderá ver seu boletim.
Escolha o nome do trabalho de avaliação do modelo para o boletim.

Ao criar um trabalho de avaliação de modelo que usa trabalhadores humanos, você tem a opção de trazer seus próprios dados de inferência e fazer com que seus trabalhadores humanos comparem esses dados de inferência com os dados produzidos por outro JumpStart modelo ou por um JumpStart modelo que você implantou em um endpoint.

Este tópico descreve o formato exigido para os dados de inferência e um procedimento simplificado de como adicionar esses dados ao seu trabalho de avaliação do modelo.

Escolha um Conjunto de dados de prompt. Esse conjunto de dados é obrigatório e será usado por sua equipe de trabalho humana para avaliar as respostas do seu modelo. Forneça o URI do S3 para o bucket do Amazon S3 que contém seu conjunto de dados de prompts na caixa de texto em Escolha um local do S3 para salvar os resultados da avaliação. Seu conjunto de dados deve estar no formato .jsonl. Cada registro deve ser um objeto JSON válido e conter as seguintes chaves obrigatórias:

prompt: Um objeto JSON que contém o texto a ser passado para o modelo.
(Opcional) category: Os rótulos da categoria para seu prompt. A chave category é usada para categorizar seus prompts para que você possa filtrar os resultados da avaliação posteriormente por categoria para uma compreensão mais profunda dos resultados da avaliação. Não participa da avaliação em si, e os operadores não veem isso na interface de avaliação.
(Opcional) referenceResponse: Um objeto JSON que contém a resposta de referência para seus avaliadores humanos. A resposta de referência não é avaliada por seus funcionários, mas pode ser usada para entender quais respostas são aceitáveis ou inaceitáveis, com base em suas instruções.
responses— Usado para especificar inferências individuais de um modelo fora ou fora da SageMaker AWS IA.

Esse objeto requer dois pares de valores-chave adicionais "modelIdentifier, que são uma string que identifica o modelo e, "text", que é a inferência do modelo.

Se você especificar uma chave "responses" em qualquer entrada do conjunto de dados de prompts personalizado, isso deverá ser especificado em todas as entradas.

O exemplo de código json mostra os pares de valores-chave aceitos em um conjunto de dados de prompts personalizado que contém seus próprios dados de inferência.


{
    "prompt": {
        "text": "Who invented the airplane?"
    },
    "category": "Airplanes",
    "referenceResponse": {
        "text": "Orville and Wilbur Wright"
    },
    "responses":
        // All inference must come from a single model
        [{
            "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
        }]

}

Para começar, execute o Studio e escolha Avaliação do modelo em Trabalhos na navegação principal.

Para adicionar seus próprios dados de inferência a um trabalho de avaliação de modelo humano.

Na Etapa 1: especifique os detalhes do trabalho, adicione o nome do seu trabalho de avaliação do modelo e uma descrição opcional.
Na Etapa 2: configure a avaliação, escolha Humana.
Em seguida, em Escolha os modelos que você deseja avaliar, você pode escolher o modelo que deseja usar. Você pode usar um JumpStart modelo que já foi implantado ou escolher um modelo de base Jumpstart pré-treinado.
Depois, escolha um tipo de tarefa.
Em seguida, você pode adicionar métricas de avaliação.
Em seguida, em Conjunto de dados de prompts, marque a caixa de seleção em Traga sua própria inferência para indicar que seus prompts contêm chaves de resposta.
Em seguida, continue configurando seu trabalho de avaliação de modelo.

Para saber mais sobre como as respostas do trabalho de avaliação de modelo com a participação de operadores humanos são salvas, consulte Entenda os resultados de um trabalho de avaliação humana.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Toxicidade

Avaliação de modelo automática