As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie um trabalho de avaliação de modelo no Amazon Bedrock
Você pode criar um trabalho de avaliação de modelo usando o AWS Management Console AWS CLI,, ou um suporte AWS SDK. Você pode criar um trabalho automático de avaliação de modelo que gere métricas para avaliação. Você também pode criar um trabalho de avaliação de modelo baseado em humanos que aproveite uma equipe de trabalhadores humanos para avaliar e fornecer suas contribuições para a avaliação.
Os exemplos a seguir mostram como criar um trabalho de avaliação de modelo automático e baseado em humanos usando o console Amazon Bedrock, AWS CLI, para SDK Python.
Visualizar os resultados do trabalho de avaliação de modelo usando o console do Amazon Bedrock
Quando um trabalho de avaliação de modelo é concluído, os resultados são armazenados no bucket do Amazon S3 que você especificou. Se você modificar o local dos resultados de alguma forma, o boletim da avaliação do modelo não estará mais visível no console.
Trabalhos automáticos de avaliação de modelo
Todos os trabalhos de avaliação automática de modelos exigem que você crie uma função IAM de serviço. Para saber mais sobre os IAM requisitos para configurar um trabalho de avaliação de modelo, consulteRequisitos de perfil de serviço para trabalhos de avaliação de modelo.
Os exemplos a seguir mostram como criar um trabalho de avaliação automática de modelos. NoAPI, você também pode incluir um perfil de inferência no trabalho especificando-o ARN no modelIdentifier
campo.
Trabalhos de avaliação de modelos baseados em humanos
Os exemplos a seguir mostram como criar um trabalho de avaliação de modelo que usa trabalhadores humanos. NoAPI, você também pode incluir um perfil de inferência no trabalho especificando-o ARN no modelIdentifier
campo.
Console
Como criar um trabalho de avaliação de modelo com a participação de operadores humanos
-
Abra o console Amazon Bedrock: página inicial https://console.aws.amazon.com/bedrock/
-
No painel de navegação, selecione Avaliação de modelos.
-
Em Criar um cartão de avaliação, em Humano: traga sua própria equipe, escolha Criar avaliação baseada em humanos.
-
Na página Especificar detalhes do trabalho, forneça as informações a seguir.
-
Nome da avaliação: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na lista de trabalhos de avaliação de modelo. O nome deve ser único na sua conta em uma Região da AWS.
-
Descrição (opcional): forneça uma descrição opcional.
-
-
Em seguida, escolha Próximo.
-
Na página Configurar avaliação, forneça as informações a seguir.
-
Modelos: você pode escolher até dois modelos que deseja usar no trabalho de avaliação de modelo.
Para saber mais sobre os modelos disponíveis no Amazon Bedrock, consulte Acesse os modelos da Amazon Bedrock Foundation.
-
(Opcional) Para alterar a configuração de inferência dos modelos selecionados, escolha atualizar.
A alteração da configuração de inferência altera as respostas geradas pelos modelos selecionados. Para saber mais sobre os parâmetros de inferência disponíveis, consulte Parâmetros de solicitação de inferência e campos de resposta para modelos básicos.
-
Tipo de tarefa: escolha o tipo de tarefa que você deseja que o modelo tente realizar durante o trabalho de avaliação de modelo. Todas as instruções para o modelo devem ser incluídas nos próprios prompts. O tipo de tarefa não controla as respostas do modelo.
-
Métricas de avaliação: a lista de métricas recomendadas muda com base na tarefa selecionada. Para cada métrica recomendada, você deve selecionar um Método de classificação. É possível ter até 10 métricas de classificação por trabalho de avaliação de modelo.
-
(Opcional) Escolha Adicionar métrica para adicionar uma métrica. Defina a Métrica, a Descrição e o Método de classificação.
-
No cartão de conjuntos de dados, você deve fornecer o seguinte.
-
Escolha um conjunto de dados de prompt — especifique o S3 do seu arquivo de conjunto URI de dados de prompt ou escolha Procurar no S3 para ver os buckets do S3 disponíveis. Você pode ter até 1.000 prompts em um conjunto de dados de prompts personalizado.
-
Destino dos resultados da avaliação — Você deve especificar o S3 URI do diretório em que deseja salvar os resultados do seu trabalho de avaliação do modelo ou escolher Procurar no S3 para ver os buckets do S3 disponíveis.
-
-
AWS KMS Chave (opcional) — Forneça ARN a chave gerenciada pelo cliente que você deseja usar para criptografar seu trabalho de avaliação de modelo.
-
Na IAMfunção Amazon Bedrock — cartão de permissões, você deve fazer o seguinte. Para saber mais sobre as permissões necessárias para avaliações de modelos, consulte Permissões e funções IAM de serviço necessárias para avaliação de modelos no Amazon Bedrock.
-
Para usar uma função de serviço existente do Amazon Bedrock, escolha Usar uma função existente. Caso contrário, use Criar uma nova função para especificar os detalhes da sua nova função IAM de serviço.
-
Em Nome da função de serviço, especifique o nome da sua função IAM de serviço.
-
Quando estiver pronto, escolha Criar função para criar a nova função IAM de serviço.
-
-
-
Em seguida, escolha Próximo.
-
No cartão Permissões, especifique as informações a seguir. Para saber mais sobre as permissões necessárias para avaliações de modelos, consulte Permissões e funções IAM de serviço necessárias para avaliação de modelos no Amazon Bedrock.
-
IAMFunção do fluxo de trabalho humano — especifique uma função de SageMaker serviço que tenha as permissões necessárias.
-
No cartão Equipe de trabalho, especifique o seguinte.
Requisitos para notificação de operadores humanos
Quando você adiciona um novo operador humano a um trabalho de avaliação de modelo, ele recebe automaticamente um e-mail convidando-o a participar do trabalho de avaliação de modelo. Ao adicionar um trabalhador humano existente a um trabalho de avaliação de modelo, você deve notificar e fornecer a ele o portal do trabalhador URL para o trabalho de avaliação de modelo. O operador existente não receberá uma notificação automática por e-mail de que foi adicionado ao novo trabalho de avaliação de modelo.
-
Usando o menu suspenso Selecionar equipe, especifique Criar uma equipe de trabalho ou o nome de uma equipe de trabalho existente.
-
(Opcional) Número de operadores por prompt: atualize o número de operadores que avaliam cada prompt. Depois que as respostas de cada prompt forem analisadas pelo número definido de operadores, o prompt e suas respostas serão retirados de circulação da equipe de trabalho. O relatório dos resultados finais incluirá todas as classificações de cada operador.
-
(Opcional) E-mail do trabalhador existente — Escolha essa opção para copiar um modelo de e-mail contendo o portal do trabalhadorURL.
-
(Opcional) Novo e-mail de operador: escolha esta opção para ver o e-mail que os novos operadores recebem automaticamente.
Importante
Sabe-se que grandes modelos de linguagem ocasionalmente alucinam e geram conteúdo tóxico ou ofensivo. Os operadores poderão ser expostos a material tóxico ou ofensivo durante essa avaliação. Tome as medidas adequadas para treiná-los e notificá-los antes que eles trabalhem na avaliação. Eles podem recusar e largar tarefas ou fazer pausas durante a avaliação enquanto acessam a ferramenta de avaliação humana.
-
-
Em seguida, escolha Próximo.
-
Na página Fornecer instruções, use o editor de texto para fornecer instruções sobre como concluir a tarefa. Você pode pré-visualizar a interface de avaliação que a equipe de trabalho usará para avaliar as respostas, incluindo as métricas, os métodos de classificação e suas instruções. Essa pré-visualização é baseada na configuração que você criou para esse trabalho.
-
Em seguida, escolha Próximo.
-
Na página Revisar e criar, você pode ver um resumo das opções selecionadas nas etapas anteriores.
-
Para iniciar o trabalho de avaliação de modelo, escolha Criar.
nota
Depois que o trabalho for iniciado com sucesso, o status mudará para Em andamento. Quando o trabalho for concluído, o status será alterado para Concluído. Enquanto um trabalho de avaliação do modelo ainda estiver em andamento, você pode optar por interromper o trabalho antes que todas as respostas dos modelos tenham sido avaliadas pela sua equipe de trabalho. Para fazer isso, escolha Parar avaliação na página inicial de avaliação do modelo. Isso mudará o status do trabalho de avaliação do modelo para Parando. Depois que o trabalho de avaliação do modelo for interrompido com êxito, você poderá excluir o trabalho de avaliação do modelo.
APIe AWS CLI
Ao criar um trabalho de avaliação de modelo baseado em humanos fora do console do Amazon Bedrock, você precisa criar uma definição de SageMaker fluxo da Amazon. ARN
A definição de fluxo ARN é onde o fluxo de trabalho de um trabalho de avaliação de modelo é definido. A definição de fluxo é usada para definir a interface do trabalhador e a equipe de trabalho que você deseja atribuir à tarefa e conectar-se ao Amazon Bedrock.
Para trabalhos de avaliação de modelos iniciados usando API as operações do Amazon Bedrock, você deve criar uma definição de fluxo ARN usando o AWS CLI ou um compatível AWS SDK. Para saber mais sobre como as definições de fluxo funcionam e como criá-las programaticamente, consulte Criar um fluxo de trabalho de revisão humana (API) no Guia do SageMaker desenvolvedor.
No, CreateFlowDefinition
você deve especificar AWS/Bedrock/Evaluation
como entrada para AwsManagedHumanLoopRequestSource
o. A função de serviço Amazon Bedrock também deve ter permissões para acessar o bucket de saída da definição de fluxo.
Veja a seguir uma solicitação do AWS CLI de exemplo. Na solicitação, HumanTaskUiArn
é de SageMaker propriedadeARN. NoARN, você só pode modificar Região da AWS o.
aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "
human-evaluation-task01
", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation
" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Região da AWS
:111122223333:workteam/private-crowd/my-workteam
", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket
" }, "RoleArn": "arn:aws:iam::111122223333
:role/SageMakerCustomerRoleArn" }'
Depois de criar sua definição de fluxoARN, use os exemplos a seguir para criar um trabalho de avaliação de modelo baseado em humanos usando o AWS CLI ou um suporte AWS SDK.