As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie um trabalho de avaliação de modelo que use trabalhadores humanos
Importante
IAMPolíticas personalizadas que permitem que o Amazon SageMaker Studio ou o Amazon SageMaker Studio Classic criem SageMaker recursos da Amazon também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma IAM política permitir que o Studio e o Studio Classic criem recursos, mas não permita a marcação, erros AccessDenied "" podem ocorrer ao tentar criar recursos. Para obter mais informações, consulte Forneça permissões para marcar recursos SageMaker.
AWS Políticas gerenciadas para a Amazon SageMakerque dão permissões para criar SageMaker recursos já incluem permissões para adicionar tags ao criar esses recursos.
Para criar um trabalho de avaliação de modelo que usa trabalhadores humanos, você deve configurar seu ambiente para ter as permissões corretas. Em seguida, você pode usar o assistente do trabalho de avaliação do modelo no Studio para selecionar os modelos que deseja usar e, em seguida, definir os parâmetros e a força de trabalho que deseja usar no trabalho de avaliação do modelo.
Quando o trabalho estiver concluído, você poderá visualizar um relatório para entender como sua força de trabalho avaliou os modelos selecionados. Os resultados também são salvos no Amazon S3 como um arquivo jsonlines
de saída.
Em um trabalho de avaliação de modelo que usa trabalhadores humanos, você tem a capacidade de trazer dados de inferência de modelos hospedados fora SageMaker e modelos hospedados fora de AWS. Para saber mais, consulte Usando seus próprios dados de inferência em trabalhos de avaliação de modelos que usam trabalhadores humanos.
Quando seus trabalhos são concluídos, os resultados são salvos no bucket do Amazon S3 especificado quando o trabalho foi criado. Para saber como interpretar seus resultados, consulteEntenda os resultados do seu trabalho de avaliação de modelos.
Pré-requisitos
Para executar uma avaliação de modelo na interface do usuário do Amazon SageMaker Studio, sua função AWS Identity and Access Management (IAM) e qualquer conjunto de dados de entrada devem ter as permissões corretas. Se você não tiver um SageMaker domínio ou IAM função, siga as etapas emGuia para se configurar com a Amazon SageMaker.
Configurando suas permissões
A seção a seguir mostra como criar um bucket do Amazon S3 e como especificar as permissões corretas de compartilhamento de recursos entre origens ()CORS.
Para criar um bucket do Amazon S3 e especificar as permissões CORS
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
No painel de navegação, entre
S3
na barra de pesquisa na parte superior da página. -
Escolha S3 em Serviços.
-
Escolha Buckets no painel de navegação.
-
Na seção Buckets de uso geral, em Nome, escolha o nome do bucket do S3 que você deseja usar para armazenar a entrada e a saída do modelo no console. Se você não tiver um bucket S3, faça o seguinte.
-
Selecione Criar compartimento para abrir uma nova página Criar compartimento.
-
Na seção Configuração geral, em AWS Região, selecione a AWS região em que seu modelo de fundação está localizado.
-
Nomeie seu bucket do S3 na caixa de entrada em Nome do bucket.
-
Aceite todas as opções padrão.
-
Selecione Criar bucket.
-
Na seção Buckets de uso geral, em Nome, selecione o nome do bucket do S3 que você criou.
-
-
Escolha a aba Permissões.
-
Role até a seção Compartilhamento de recursos entre origens (CORS) na parte inferior da janela. Selecione a opção Editar.
-
A seguir está a CORS política mínima exigida que você deve adicionar ao seu bucket do Amazon S3. Copie e cole o seguinte na caixa de entrada.
[ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
-
Escolha Salvar alterações.
Para adicionar permissões à sua IAM política
Talvez você queira considerar o nível de permissões a serem atribuídas à sua IAM função.
-
Você pode criar uma IAM política personalizada que permita as permissões mínimas necessárias adaptadas a esse serviço.
-
Você pode anexar as
AmazonS3FullAccess
políticas existentesAmazonSageMakerFullAccess
e à sua IAM função existente, o que é mais permissivo. Para obter mais informações sobre aAmazonSageMakerFullAccess
política, consulte AmazonSageMakerFullAccess.
Se quiser anexar as políticas existentes à sua IAM função, você pode pular as instruções definidas aqui e continuar seguindo as instruções em Para adicionar permissões à sua IAM função.
As instruções a seguir criam uma IAM política personalizada adaptada a esse serviço com permissões mínimas.
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
Na barra de pesquisa na parte superior da página, digite
IAM
. -
Em Serviços, selecione Identity and Access Management (IAM).
-
Escolha Políticas no painel de navegação.
-
Escolha Criar política. Quando o editor de políticas abrir, escolha JSON.
-
Certifique-se de que as seguintes permissões apareçam no editor de políticas. Você também pode copiar e colar o seguinte no editor de políticas.
{ "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
-
Escolha Próximo.
-
Insira o nome da política na seção Detalhes da política, em Nome da política. Você também pode inserir uma descrição opcional. Você pesquisará esse nome de política ao atribuí-la a uma função.
-
Escolha Criar política.
Para adicionar permissões à sua IAM função
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
Na barra de pesquisa na parte superior da página, digite
IAM
. -
Em Serviços, selecione Identity and Access Management (IAM).
-
Selecione Roles (Funções) no painel de navegação.
-
Se você estiver criando uma nova função:
-
Selecione Criar função.
-
Na etapa Selecionar entidade confiável, em Tipo de entidade confiável, escolha Política de confiança personalizada.
-
No editor de política de confiança personalizada, ao lado de Adicionar principal, escolha Adicionar.
-
Na caixa pop-up Adicionar principal, em Tipo principal, selecione AWS serviços na lista suspensa de opções.
-
Em ARNsubstituir
{ServiceName}
porsagemaker
. -
Selecione Adicionar entidade principal.
-
Escolha Próximo.
-
(Opcional) Em Políticas de permissões, selecione as políticas que você gostaria de adicionar à sua função.
-
(Opcional) Em Definir limite de permissões - opcional, escolha sua configuração de limite de permissão.
-
Escolha Próximo.
-
Na etapa Nome, revisão e criação, em Detalhes da função, preencha o nome e a descrição da função.
-
(Opcional) Em Adicionar tags - opcional, você pode adicionar tags escolhendo Adicionar nova tag e inserir um par opcional Chave e Valor.
-
Examine suas configurações.
-
Selecione Criar função.
-
-
Se você estiver adicionando a política a uma função existente:
-
Selecione o nome da função em Nome da função. A janela principal muda para mostrar informações sobre sua função.
-
Na seção Políticas de permissões, escolha a seta para baixo ao lado de Adicionar permissões.
-
Nas opções exibidas, escolha Anexar políticas.
-
Na lista de políticas que aparece, pesquise e selecione a política que você criou em Para adicionar permissões à sua IAM política e marque a caixa de seleção ao lado do nome da sua política. Se você não criou uma IAM política personalizada, pesquise e marque as caixas de seleção ao lado das
AmazonSageMakerFullAccess
AmazonS3FullAccess
políticas AWS fornecidas. Talvez você queira considerar o nível de permissões a serem atribuídas à sua IAM função. As instruções para a IAM política personalizada são menos permissivas, enquanto a última é mais permissiva. Para obter mais informações sobre aAmazonSageMakerFullAccess
política, consulte AmazonSageMakerFullAccess. -
Escolha Add permissions (Adicionar permissões). Um banner na parte superior da página deve indicar que a política foi anexada com sucesso à função. quando concluído.
-
Para adicionar política de confiança à sua IAM função
A política de confiança a seguir permite que os administradores assumam SageMaker a função. Você precisa adicionar a política à sua IAM função. Use as etapas a seguir para fazer isso.
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
Na barra de pesquisa na parte superior da página, digite
IAM
. -
Em Serviços, selecione Identity and Access Management (IAM).
-
Selecione Roles (Funções) no painel de navegação.
-
Selecione o nome da função em Nome da função. A janela principal muda para mostrar informações sobre sua função.
-
Escolha a guia Relação de confiança.
-
Escolha Editar política de confiança.
-
Certifique-se de que a política a seguir apareça em Editar política de confiança. Você também pode copiar e colar o seguinte no editor.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
-
Escolha Atualizar política. Um banner na parte superior da página deve indicar a política de confiança atualizada. quando concluído.
Você pode criar um trabalho de avaliação humana usando um modelo baseado em texto que está disponível em JumpStart ou usar um JumpStart modelo que você implantou anteriormente em um endpoint.
Para lançar JumpStart
Abra o SageMaker console da Amazon em https://console.aws.amazon.com/sagemaker/
. -
Na barra de pesquisa na parte superior da página, digite
SageMaker
. -
Em Serviços, selecione Amazon SageMaker.
-
Escolha Studio no painel de navegação.
-
Escolha seu domínio na seção Começar, depois de expandir a seta para baixo em Selecionar domínio.
-
Escolha seu perfil de usuário na seção Começar depois de expandir a seta para baixo em Selecionar perfil de usuário.
-
Escolha Open Studio para abrir a página inicial do Studio.
-
Escolha Trabalhos no painel de navegação.
Para configurar um trabalho de avaliação
-
Na página inicial de avaliação do modelo, escolha Avaliar um modelo
-
Especifique os detalhes do trabalho.
-
Insira o nome da avaliação do seu modelo. Esse nome ajuda você a identificar seu trabalho de avaliação de modelo após o envio.
-
Insira uma Descrição para adicionar mais contexto ao nome.
-
Escolha Próximo.
-
-
Configurar avaliação
-
Em Escolha um tipo de avaliação, selecione o botão de rádio ao lado de Humano.
-
Em Escolha o (s) modelo (s) que você deseja avaliar, escolha Adicionar modelo à avaliação. Você pode avaliar até dois modelos para cada avaliação.
-
Para usar um modelo pré-treinado, escolha JumpStart Modelo de JumpStart fundação pré-treinado. Se você quiser usar um JumpStart modelo implantado anteriormente em um endpoint, escolha Endpoints with JumpStart foundation models.
-
Se o modelo exigir um contrato legal, marque a caixa de seleção para confirmar que você concorda.
-
Se você quiser adicionar outro modelo, repita a etapa anterior.
-
-
Para alterar o comportamento do modelo durante a inferência, escolha Definir parâmetros.
O conjunto de parâmetros contém uma lista de parâmetros de inferência que afetam o grau de aleatoriedade na saída do modelo, o comprimento da saída do modelo e as palavras que o modelo escolherá em seguida.
-
Em seguida, selecione um tipo de tarefa. Você pode selecionar qualquer uma das seguintes opções:
-
Sumarização de texto
-
Resposta a perguntas (Q&A)
-
Classificação de texto
-
Geração aberta
-
Custom (Personalizado)
-
-
Na seção Métricas de avaliação, escolha uma dimensão de avaliação e insira contexto adicional sobre a dimensão na caixa de texto em Descrição. Você pode escolher entre as seguintes dimensões:
-
Fluência — mede a qualidade linguística de um texto gerado.
-
Coerência — mede a organização e a estrutura de um texto gerado.
-
Toxicidade — mede a nocividade de um texto gerado.
-
Precisão — Indica a precisão de um texto gerado.
-
Uma dimensão de avaliação personalizada da qual você pode definir o nome e a descrição para sua equipe de trabalho.
Para adicionar uma dimensão de avaliação personalizada, faça o seguinte:
-
Escolha Adicionar uma dimensão de avaliação.
-
Na caixa de texto contendo Fornecer dimensão de avaliação, insira o nome da sua dimensão personalizada.
-
Na caixa de texto contendo Fornecer descrição para essa dimensão de avaliação, insira uma descrição para que sua equipe de trabalho entenda como avaliar sua dimensão personalizada.
-
Abaixo de cada uma dessas métricas, há métricas de relatórios que você pode escolher na seta para baixo Escolha um tipo de métrica. Se você tiver dois modelos para avaliar, poderá escolher métricas de relatórios comparativas ou individuais. Se você tiver um modelo para avaliar, poderá escolher somente métricas de relatórios individuais. Você pode escolher os seguintes tipos de métricas de relatório para cada uma das métricas acima.
-
Escala Likert (Comparativa) - comparação — Um avaliador humano indicará sua preferência entre duas respostas em uma escala Likert de 5 pontos, de acordo com suas instruções. Os resultados no relatório final serão mostrados como um histograma das classificações de força de preferência dos avaliadores em todo o conjunto de dados. Defina os pontos importantes da escala de 5 pontos em suas instruções para que seus avaliadores saibam como avaliar as respostas de acordo com suas expectativas. Na JSON saída salva no Amazon S3, essa escolha é representada como
ComparisonLikertScale
o par de valores-chave."evaluationResults":"ComparisonLikertScale"
-
Botões de escolha (comparativos) — Permitem que um avaliador humano indique sua única resposta preferida em relação a outra resposta. Os avaliadores indicam sua preferência entre duas respostas de acordo com suas instruções usando botões de rádio. Os resultados no relatório final serão mostrados como uma porcentagem das respostas que os operadores preferiram para cada modelo. Explique claramente seu método de avaliação em suas instruções. Na JSON saída salva no Amazon S3, essa escolha é representada como
ComparisonChoice
o par de valores-chave."evaluationResults":"ComparisonChoice"
-
Classificação ordinal (comparativa) — Permite que um avaliador humano classifique suas respostas preferidas a uma solicitação em ordem, começando por, de acordo com suas instruções.
1
Os resultados no relatório final serão mostrados como um histograma das classificações dos avaliadores em todo o conjunto de dados. Defina o que1
significa uma classificação em suas instruções. Na JSON saída salva no Amazon S3, essa escolha é representada comoComparisonRank
o par de valores-chave."evaluationResults":"ComparisonRank"
-
(Individual) Polegar para cima/para baixo — Permite que um avaliador humano classifique cada resposta de um modelo como aceitável ou inaceitável de acordo com suas instruções. Os resultados no relatório final serão mostrados como uma porcentagem do número total de classificações dos avaliadores que receberam uma avaliação positiva (polegar para cima) para cada modelo. Você pode usar esse método de classificação para avaliar um ou mais modelos. Se você usar isso em uma avaliação que contém dois modelos, uma avaliação positiva ou negativa será apresentada à sua equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina o que é aceitável como avaliação positiva ou negativa em suas instruções. Na JSON saída salva no Amazon S3, essa escolha é representada como
ThumbsUpDown
o par de valores-chave."evaluationResults":"ThumbsUpDown"
-
Escala Likert (individual) - individual — Permite que um avaliador humano indique com que intensidade aprova a resposta do modelo com base em suas instruções em uma escala Likert de 5 pontos. Os resultados no relatório final serão mostrados como um histograma das avaliações de 5 pontos dos avaliadores em todo o conjunto de dados. Você pode usar essa escala para uma avaliação contendo um ou mais modelos. Se você selecionar esse método de classificação em uma avaliação que contém mais de um modelo, uma escala Likert de 5 pontos será apresentada à sua equipe de trabalho para cada resposta do modelo e o relatório final mostrará os resultados agregados de cada modelo individualmente. Defina os pontos importantes na escala de 5 pontos em suas instruções para que seus avaliadores saibam como avaliar as respostas de acordo com suas expectativas. Na JSON saída salva no Amazon S3, essa escolha é representada como
IndividualLikertScale
o par de valores-chave."evaluationResults":"IndividualLikertScale"
-
-
Escolha um conjunto de dados Prompt. Esse conjunto de dados é obrigatório e será usado por sua equipe de trabalho humana para avaliar as respostas do seu modelo. Forneça o S3 URI a um bucket do Amazon S3 que contenha seu conjunto de dados imediato na caixa de texto em URI S3 para seu arquivo de conjunto de dados de entrada. Seu conjunto de dados deve estar em
jsonlines
formato e conter as seguintes chaves para identificar quais partes do conjunto de dados a interface do usuário usará para avaliar seu modelo:-
prompt
— A solicitação para a qual você deseja que seu modelo gere uma resposta. -
(Opcional)
category
— - Os rótulos da categoria para sua solicitação. Acategory
chave é usada para categorizar suas solicitações para que você possa filtrar os resultados da avaliação posteriormente por categoria para uma compreensão mais profunda dos resultados da avaliação. Ele não participa da avaliação em si e os trabalhadores não o veem na interface de avaliação. -
(Opcional)
referenceResponse
— A resposta de referência para seus avaliadores humanos. A resposta de referência não é avaliada por seus funcionários, mas pode ser usada para entender quais respostas são aceitáveis ou inaceitáveis, com base em suas instruções. -
(Opcional)
responses
— Usado para especificar inferências de um modelo externo SageMaker ou externo. AWSEsse objeto requer dois pares de valores-chave adicionais
"modelIdentifier
, que são uma string que identifica o modelo e"text"
que é a inferência do modelo.Se você especificar uma
"responses"
chave em qualquer entrada do conjunto de dados do prompt personalizado, ela deverá ser especificada em todas as entradas. -
O exemplo de
json
código a seguir mostra os pares de valores-chave aceitos em um conjunto de dados de prompt personalizado. A caixa de seleção Traga sua própria inferência deve ser marcada se uma chave de respostas for fornecida. Se marcada, aresponses
chave deve sempre ser especificada em cada prompt. O exemplo a seguir pode ser usado em um cenário de perguntas e respostas.{ "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier":
"meta-textgeneration-llama-codellama-7b"
, "text":"The capital of Aurillac is Cantal."
} ] }
-
-
Insira um local do bucket do S3 onde você deseja salvar os resultados da avaliação de saída na caixa de texto em Escolha um local do S3 para salvar os resultados da avaliação. O arquivo de saída gravado nesse local do S3 estará no
JSON
formato, terminando na extensão,.json
. -
nota
Se você quiser incluir seus próprios dados de inferência no trabalho de avaliação do modelo, você só pode usar um único modelo.
(Opcional) Escolha a caixa de seleção em Traga sua própria inferência para indicar que seu conjunto de dados de prompt contém a
responses
chave. Se você especificar aresponses
chave como parte de qualquer solicitação, ela deverá estar presente em todas elas. -
Configure seu processador na seção Configuração do processador usando os seguintes parâmetros:
-
Use a contagem de instâncias para especificar o número de instâncias de computação a serem usadas para executar seu modelo. Se você usar mais de uma
1
instância, seu modelo será executado em instâncias paralelas. -
Use o tipo de instância para escolher o tipo de instância de computação que você quer usar para executar seu modelo. AWS tem instâncias gerais de computação e instâncias otimizadas para computação e memória. Para obter mais informações sobre os tipos de instância, consulteTipos de instância disponíveis para uso com o Studio Classic.
-
Se você quiser SageMaker usar sua própria chave de criptografia AWS Key Management Service (AWS KMS) em vez da chave de serviço AWS gerenciado padrão, alterne para selecionar Ativado em Chave de volume e insira a KMS AWS KMS chave. SageMaker usará sua AWS KMS chave para criptografar dados no volume de armazenamento. Para obter mais informações sobre chaves, consulte AWS Key Management Service.
-
Se você quiser SageMaker usar sua própria chave de criptografia AWS Key Management Service (AWS KMS) em vez da chave de serviço AWS gerenciado padrão, alterne para selecionar Ativado em Chave de saída e insira a KMS AWS KMS chave. SageMaker usará sua AWS KMS chave para criptografar a saída do trabalho de processamento.
-
Use uma IAM função para especificar o acesso e as permissões para o processador padrão. Insira a IAM função que você configurou na seção Configurar sua IAM função nesta seção Executar uma avaliação humana.
-
-
Depois de especificar o modelo e os critérios, selecione Avançar.
-
Sua equipe de trabalho consiste nas pessoas que estão avaliando seu modelo. Depois que sua equipe de trabalho é criada, ela persiste indefinidamente e você não pode alterar seus atributos. Veja a seguir como começar com sua equipe de trabalho.
Configure sua equipe de trabalho
-
Escolha uma equipe existente ou crie uma nova equipe na caixa de texto Selecionar equipe.
-
Especifique o nome da sua organização em Nome da organização. Esse campo só aparece quando você cria a primeira equipe de trabalho na conta.
-
Especifique um e-mail de contato. Seus funcionários usarão esse e-mail para se comunicar com você sobre a tarefa de avaliação que você fornecerá a eles. Esse campo só aparece quando você cria a primeira equipe de trabalho na conta.
-
Especifique o nome da equipe. Você não pode alterar esse nome posteriormente.
-
Especifique uma lista de endereços de e-mail para cada um de seus trabalhadores humanos que avaliarão seu modelo de linguagem grande (LLM). Quando você especifica os endereços de e-mail da sua equipe, eles são notificados sobre um novo trabalho somente quando são adicionados recentemente a uma equipe de trabalho. Se você usar a mesma equipe para um trabalho subsequente, deverá notificá-los manualmente.
-
Em seguida, especifique o número de trabalhadores por solicitação
Forneça instruções para sua equipe de trabalho
-
Forneça instruções detalhadas à sua força de trabalho humana para que ela possa avaliar seu modelo de acordo com suas métricas e padrões. Um modelo na janela principal mostra exemplos de instruções que você pode fornecer. Para obter mais informações sobre como dar instruções, consulte Criação de boas instruções para trabalhadores.
-
Para minimizar o viés em sua avaliação humana, marque a caixa de seleção ao lado de Randomizar posições de resposta.
-
Escolha Próximo.
Você pode revisar o resumo das seleções que você fez para seu trabalho humano. Se você precisar mudar de emprego, escolha Anterior para voltar a uma seleção anterior.
Envie sua solicitação de avaliação e veja o progresso do trabalho
-
Para enviar sua solicitação de trabalho de avaliação, escolha Criar recurso.
-
Para ver o status de todos os seus trabalhos, escolha Trabalhos no painel de navegação. Em seguida, escolha Avaliação do modelo. O status da avaliação é exibido como Concluído, Falha ou Em andamento.
O seguinte também é exibido:
-
Exemplos de cadernos para executar uma avaliação de modelo no SageMaker Amazon Bedrock.
-
Links para informações adicionais, incluindo documentação, vídeos, notícias e blogs sobre o processo de avaliação do modelo.
-
O portal URL para seu trabalhador particular também está disponível.
-
-
Selecione sua avaliação de modelo em Nome para ver um resumo de sua avaliação.
-
O resumo fornece informações sobre o status do trabalho, que tipo de tarefa de avaliação você executou em qual modelo e quando ela foi executada. Após o resumo, as pontuações da avaliação humana são classificadas e resumidas por métrica.
-
Veja o boletim do seu trabalho de avaliação de modelo que usa trabalhadores humanos
-
Para ver o relatório de seus trabalhos, escolha Trabalhos no painel de navegação.
-
Em seguida, escolha Avaliação do modelo. Na página inicial de avaliações de modelos, use a tabela para encontrar seu trabalho de avaliação de modelos. Depois que o status do trabalho for alterado para Concluído, você poderá ver seu boletim escolar.
-
Escolha o nome do trabalho de avaliação do modelo em seu boletim.
Ao criar um trabalho de avaliação de modelo que usa trabalhadores humanos, você tem a opção de trazer seus próprios dados de inferência e fazer com que seus trabalhadores humanos comparem esses dados de inferência com os dados produzidos por outro JumpStart modelo ou por um JumpStart modelo que você implantou em um endpoint.
Este tópico descreve o formato necessário para os dados de inferência e um procedimento simplificado de como adicionar esses dados ao seu trabalho de avaliação do modelo.
Escolha um conjunto de dados Prompt. Esse conjunto de dados é obrigatório e será usado por sua equipe de trabalho humana para avaliar as respostas do seu modelo. Forneça o S3 URI a um bucket do Amazon S3 que contém seu conjunto de dados imediato na caixa de texto em Escolha um local do S3 para salvar os resultados da avaliação. Seu conjunto de dados deve estar em .jsonl
formato. Cada registro deve ser um JSON objeto válido e conter as seguintes chaves obrigatórias:
-
prompt
— Um JSON objeto que contém o texto a ser passado para o modelo. -
(Opcional)
category
— - Os rótulos da categoria para sua solicitação. Acategory
chave é usada para categorizar suas solicitações para que você possa filtrar os resultados da avaliação posteriormente por categoria para uma compreensão mais profunda dos resultados da avaliação. Ele não participa da avaliação em si e os trabalhadores não o veem na interface de avaliação. -
(Opcional)
referenceResponse
— um JSON objeto que contém a resposta de referência para seus avaliadores humanos. A resposta de referência não é avaliada por seus funcionários, mas pode ser usada para entender quais respostas são aceitáveis ou inaceitáveis, com base em suas instruções. -
responses
— Usado para especificar inferências individuais de um modelo fora SageMaker ou fora dele AWS.Esse objeto requer dois pares de valores-chave adicionais
"modelIdentifier
, que são uma string que identifica o modelo e"text"
que é a inferência do modelo.Se você especificar uma
"responses"
chave em qualquer entrada do conjunto de dados do prompt personalizado, ela deverá ser especificada em todas as entradas.
O exemplo de json
código a seguir mostra os pares de valores-chave aceitos em um conjunto de dados de prompt personalizado que contém seus próprios dados de inferência.
{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier":
"meta-textgeneration-llama-codellama-7b"
, "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Para começar, inicie o Studio e, em Avaliação do modelo, escolha Avaliação do modelo em Trabalhos na navegação principal.
Para adicionar seus próprios dados de inferência a um trabalho de avaliação de modelo humano.
-
Na Etapa 1: Especifique os detalhes do trabalho, adicione o nome do seu trabalho de avaliação do modelo e uma descrição opcional.
-
Na Etapa 2: Configurar a avaliação, escolha Humano.
-
Em seguida, em Escolha o (s) modelo (s) que você deseja avaliar, você pode escolher o modelo que deseja usar. Você pode usar um JumpStart modelo que já foi implantado ou escolher um modelo de base Jumpstart pré-treinado.
-
Em seguida, escolha um tipo de tarefa.
-
Em seguida, você pode adicionar métricas de avaliação.
-
Em seguida, em Conjunto de dados do Prompt, escolha a caixa de seleção em Traga sua própria inferência para indicar que seus prompts contêm chaves de resposta.
-
Em seguida, continue configurando seu trabalho de avaliação de modelo.
Para saber mais sobre como as respostas do seu trabalho de avaliação de modelo que usa trabalhadores humanos são salvas, consulte Entenda os resultados de um trabalho de avaliação humana