Pré-requisitos Tutorial: Criando avaliações de modelos que usam trabalhadores humanos

Criar um trabalho de avaliação de modelo com a participação de operadores humanos

Em um trabalho de avaliação de modelo que usa trabalhadores humanos, você pode avaliar e comparar as respostas de até dois modelos. Você pode escolher entre uma lista de métricas recomendadas ou usar métricas definidas por você. Você pode ter no máximo 20 trabalhos de avaliação de modelos que usam trabalhadores humanos em andamento em seu Conta da AWS per Região da AWS.

Para cada métrica usada, você deve definir um Método de classificação. O método de avaliação define como seus funcionários humanos avaliarão as respostas que receberão dos modelos que você selecionou. Para saber mais sobre os diferentes métodos de classificação disponíveis e como criar instruções de alta qualidade para trabalhadores, consulteCriar e gerenciar equipes de trabalho no Amazon Bedrock.

Pré-requisitos

Para concluir o procedimento abaixo, é necessário cumprir os requisitos a seguir. Os trabalhos de avaliação de modelos criados no console do Amazon Bedrock exigem que CORS as permissões sejam configuradas nos buckets do Amazon S3 especificados quando o trabalho é criado.

Para trabalhos de avaliação de modelos que usam trabalhadores humanos, não há suporte para conjuntos de dados integrados. Para saber mais sobre a criação de conjuntos de dados de prompts personalizados, consulteRequisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos.

Você deve ter acesso aos modelos no Amazon Bedrock.
Você deve ter um perfil de serviço do Amazon Bedrock. Se você ainda não tiver uma função de serviço criada, você pode criá-la no console do Amazon Bedrock enquanto configura seu trabalho de avaliação de modelo. A política anexada deve conceder acesso a todos os buckets do S3 usados na tarefa de avaliação ARNs do modelo e a qualquer modelo especificado na tarefa. Também deve ter as sagemaker:DescribeFlowDefinition SageMaker IAM ações sagemaker:StartHumanLoopsagemaker:StopHumanLoop,, sagemaker:DescribeHumanLoop e definidas na política. O perfil de serviço também deve ter o Amazon Bedrock definido como entidade principal de serviço na política de confiança do perfil. Para saber mais, consulte Perfis de serviço.
Você deve ter uma função de SageMaker serviço da Amazon. Se você ainda não tiver uma função de serviço criada, você pode criá-la no console do Amazon Bedrock enquanto configura seu trabalho de avaliação de modelo. A política anexada deve conceder acesso aos seguintes recursos e IAM ações. Todos os buckets do S3 usados no trabalho de avaliação de modelo. A política de confiança da função deve ter sido SageMaker definida como principal do serviço. Para saber mais, consulte Permissões obrigatórias.
O usuário, grupo ou perfil que acessa o console do Amazon Bedrock deve ter as permissões necessárias para acessar os buckets do Amazon S3 necessários.
O bucket Amazon S3 de saída e qualquer bucket de conjunto de dados de prompt personalizado devem ter as CORS permissões necessárias adicionadas a eles. Para saber mais sobre as CORS permissões necessárias, consultePermissão de compartilhamento de recursos de origem cruzada (CORS) necessária em buckets do S3.

Tutorial: Criando avaliações de modelos que usam trabalhadores humanos

Use o tutorial a seguir para criar um trabalho de avaliação de modelo que usa trabalhadores humanos.

Visualizar os resultados do trabalho de avaliação de modelo usando o console do Amazon Bedrock

Quando um trabalho de avaliação de modelo é concluído, os resultados são armazenados no bucket do Amazon S3 que você especificou. Se você modificar o local dos resultados de alguma forma, o boletim da avaliação do modelo não estará mais visível no console.

Como criar um trabalho de avaliação de modelo com a participação de operadores humanos

Abra o console Amazon Bedrock: página inicial https://console.aws.amazon.com/bedrock/
No painel de navegação, selecione Avaliação de modelos.
Em Criar um cartão de avaliação, em Humano: traga sua própria equipe, escolha Criar avaliação baseada em humanos.
Na página Especificar detalhes do trabalho, forneça as informações a seguir.
1. Nome da avaliação: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na lista de trabalhos de avaliação de modelo. O nome deve ser exclusivo em seu Conta da AWS em um Região da AWS.
2. Descrição (opcional): forneça uma descrição opcional.
Em seguida, escolha Próximo.
Na página Configurar avaliação, forneça as informações a seguir.
1. Modelos: você pode escolher até dois modelos que deseja usar no trabalho de avaliação de modelo.
  
  Para saber mais sobre os modelos disponíveis no Amazon Bedrock, consulte Gerencie o acesso aos modelos da Amazon Bedrock Foundation.
2. (Opcional) Para alterar a configuração de inferência dos modelos selecionados, escolha atualizar.
  
  A alteração da configuração de inferência altera as respostas geradas pelos modelos selecionados. Para saber mais sobre os parâmetros de inferência disponíveis, consulte Parâmetros de inferência para modelos de base.
3. Tipo de tarefa: escolha o tipo de tarefa que você deseja que o modelo tente realizar durante o trabalho de avaliação de modelo. Todas as instruções para o modelo devem ser incluídas nos próprios prompts. O tipo de tarefa não controla as respostas do modelo.
4. Métricas de avaliação: a lista de métricas recomendadas muda com base na tarefa selecionada. Para cada métrica recomendada, você deve selecionar um Método de classificação. É possível ter até 10 métricas de classificação por trabalho de avaliação de modelo.
5. (Opcional) Escolha Adicionar nova métrica para adicionar uma nova métrica. Defina a Métrica, a Descrição e o Método de classificação.
6. No cartão de conjuntos de dados, você deve fornecer o seguinte.
  1. Escolha um conjunto de dados de prompt — especifique o S3 do seu arquivo de conjunto URI de dados de prompt ou escolha Procurar no S3 para ver os buckets do S3 disponíveis. Você pode ter até 1.000 prompts em um conjunto de dados de prompts personalizado.
  2. Destino dos resultados da avaliação — Você deve especificar o S3 URI do diretório em que deseja salvar os resultados do seu trabalho de avaliação do modelo ou escolher Procurar no S3 para ver os buckets do S3 disponíveis.
7. AWS KMS Chave (opcional) — Forneça ARN a chave gerenciada pelo cliente que você deseja usar para criptografar seu trabalho de avaliação de modelo.
8. Na IAMfunção Amazon Bedrock — cartão de permissões, você deve fazer o seguinte. Para saber mais sobre as permissões necessárias para avaliações de modelos, consulte Permissões e funções IAM de serviço necessárias para criar um trabalho de avaliação de modelo.
  1. Para usar uma função de serviço existente do Amazon Bedrock, escolha Usar uma função existente. Caso contrário, use Criar uma nova função para especificar os detalhes da sua nova função IAM de serviço.
  2. Em Nome da função de serviço, especifique o nome da sua função IAM de serviço.
  3. Quando estiver pronto, escolha Criar função para criar a nova função IAM de serviço.
Em seguida, escolha Próximo.
No cartão Permissões, especifique as informações a seguir. Para saber mais sobre as permissões necessárias para avaliações de modelos, consulte Permissões e funções IAM de serviço necessárias para criar um trabalho de avaliação de modelo.
IAMFunção do fluxo de trabalho humano — especifique uma função de SageMaker serviço que tenha as permissões necessárias.
No cartão Equipe de trabalho, especifique o seguinte.

Requisitos para notificação de operadores humanos
Quando você adiciona um novo operador humano a um trabalho de avaliação de modelo, ele recebe automaticamente um e-mail convidando-o a participar do trabalho de avaliação de modelo. Ao adicionar um trabalhador humano existente a um trabalho de avaliação de modelo, você deve notificar e fornecer a ele o portal do trabalhador URL para o trabalho de avaliação de modelo. O operador existente não receberá uma notificação automática por e-mail de que foi adicionado ao novo trabalho de avaliação de modelo.
1. Usando o menu suspenso Selecionar equipe, especifique Criar uma equipe de trabalho ou o nome de uma equipe de trabalho existente.
2. (Opcional) Número de operadores por prompt: atualize o número de operadores que avaliam cada prompt. Depois que as respostas de cada prompt forem analisadas pelo número definido de operadores, o prompt e suas respostas serão retirados de circulação da equipe de trabalho. O relatório dos resultados finais incluirá todas as classificações de cada operador.
3. (Opcional) E-mail do trabalhador existente — Escolha essa opção para copiar um modelo de e-mail contendo o portal do trabalhadorURL.
4. (Opcional) Novo e-mail de operador: escolha esta opção para ver o e-mail que os novos operadores recebem automaticamente.
  
  Importante
  Sabe-se que grandes modelos de linguagem ocasionalmente alucinam e geram conteúdo tóxico ou ofensivo. Os operadores poderão ser expostos a material tóxico ou ofensivo durante essa avaliação. Tome as medidas adequadas para treiná-los e notificá-los antes que eles trabalhem na avaliação. Eles podem recusar e largar tarefas ou fazer pausas durante a avaliação enquanto acessam a ferramenta de avaliação humana.
Em seguida, escolha Próximo.
Na página Fornecer instruções, use o editor de texto para fornecer instruções sobre como concluir a tarefa. Você pode pré-visualizar a interface de avaliação que a equipe de trabalho usará para avaliar as respostas, incluindo as métricas, os métodos de classificação e suas instruções. Essa pré-visualização é baseada na configuração que você criou para esse trabalho.
Em seguida, escolha Próximo.
Na página Revisar e criar, você pode ver um resumo das opções selecionadas nas etapas anteriores.
Para iniciar o trabalho de avaliação de modelo, escolha Criar.

Depois que o trabalho for iniciado com sucesso, o status mudará para Em andamento. Quando o trabalho for concluído, o status será alterado para Concluído. Enquanto um trabalho de avaliação do modelo ainda estiver em andamento, você pode optar por interromper o trabalho antes que todas as respostas dos modelos tenham sido avaliadas pela sua equipe de trabalho. Para fazer isso, escolha Parar avaliação na página inicial de avaliação do modelo. Isso mudará o status do trabalho de avaliação do modelo para Parando. Depois que o trabalho de avaliação do modelo for interrompido com êxito, você poderá excluir o trabalho de avaliação do modelo.

Para saber como avaliar, visualizar e fazer download dos resultados do trabalho de avaliação de modelos, consulte Resultados de um trabalho de avaliação de modelo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Avaliações automáticas de modelos

Executar tarefas

Criar um trabalho de avaliação de modelo com a participação de operadores humanos

Pré-requisitos

Tutorial: Criando avaliações de modelos que usam trabalhadores humanos

Visualizar os resultados do trabalho de avaliação de modelo usando o console do Amazon Bedrock

Como criar um trabalho de avaliação de modelo com a participação de operadores humanos

Requisitos para notificação de operadores humanos

Importante