Pré-requisitos Tutorial: Crie um trabalho de avaliação automática de modelos

Criação de um trabalho de avaliação automática de modelos

As avaliações automáticas do modelo permitem que você avalie as respostas de um único modelo usando métricas recomendadas. Você também pode usar conjuntos de dados de prompts integrados ou usar um conjunto de dados de prompts personalizado. Você pode ter até 10 trabalhos automáticos de avaliação de modelo Em andamento em sua conta por Região da AWS.

Quando você configura um trabalho automático de avaliação de modelo, as métricas disponíveis e os conjuntos de dados integrados mais adequados ao tipo de tarefa selecionado são automaticamente adicionados ao trabalho. Você pode adicionar ou remover qualquer uma das métricas ou conjuntos de dados pré-selecionados. Você também pode fornecer seu próprio conjunto de dados de prompt personalizado.

Pré-requisitos

Para criar seu primeiro trabalho de avaliação de modelo usando o console Amazon Bedrock, você deve fazer o seguinte.

nota

Ao criar trabalhos de avaliação de modelos usando o console Amazon Bedrock, você deve configurar as CORS permissões corretas no bucket do Amazon S3 que você especificar.

Você deve ter acesso ao modelo no Amazon Bedrock.
Você deve ter um perfil de serviço do Amazon Bedrock. Se você ainda não tiver uma função de serviço criada, você pode criar no console Amazon Bedrock enquanto configura seu trabalho de avaliação de modelo. Se você quiser criar uma política personalizada, a política anexada deverá conceder acesso aos seguintes recursos: quaisquer buckets do S3 usados no trabalho de avaliação do modelo e o ARN do modelo especificado no trabalho. O perfil de serviço também deve ter o Amazon Bedrock definido como entidade principal de serviço na política de confiança do perfil. Para saber mais, consulte Permissões obrigatórias.
O usuário, grupo ou perfil que acessa o console do Amazon Bedrock deve ter as permissões necessárias para acessar os buckets do Amazon S3 necessários. Para saber mais, consulte Permissões obrigatórias
O bucket Amazon S3 de saída e qualquer bucket de conjunto de dados de prompt personalizado devem ter as CORS permissões necessárias adicionadas a eles. Para saber mais sobre as CORS permissões necessárias, consultePermissão de compartilhamento de recursos de origem cruzada (CORS) necessária em buckets do S3.

Tutorial: Crie um trabalho de avaliação automática de modelos

O procedimento a seguir é um tutorial. O tutorial aborda a criação de um trabalho de avaliação automática de modelos que usa o modelo Amazon Titan Text G1 - Lite e a criação de uma função de IAM serviço.

Visualizar os resultados do trabalho de avaliação de modelo usando o console do Amazon Bedrock

Quando um trabalho de avaliação do modelo é concluído, os resultados são armazenados no Amazon S3bucket que você especificou. Se você modificar o local dos resultados de alguma forma, o boletim da avaliação do modelo não estará mais visível no console.

(Tutorial) Para criar uma avaliação automática do modelo usando o Amazon Titan Text G1 - Lite

Abra o console Amazon Bedrock: https://console.aws.amazon.com/bedrock/.
No painel de navegação, selecione Avaliação de modelos.
No cartão Criar uma avaliação, em Automática, escolha Criar avaliação automática.
Na página Criar avaliação automática, forneça as seguintes informações:
1. Nome da avaliação: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na tabela de tarefas de avaliação do modelo. O nome deve ser exclusivo em seu Conta da AWS em um. Região da AWS
2. Descrição (opcional): forneça uma descrição opcional.
3. Seletor de modelos — Escolha o modelo Amazon Titan Text G1 — Lite.
  
  Para saber mais sobre os modelos disponíveis e acessá-los no Amazon Bedrock, consulteGerencie o acesso aos modelos da Amazon Bedrock Foundation.
4. (Opcional) Para alterar a configuração de inferência, escolha atualizar.
  
  A alteração da configuração de inferência altera as respostas geradas pelo modelo selecionado. Para saber mais sobre os parâmetros de inferência disponíveis, consulte Parâmetros de inferência para modelos de base.
5. Tipo de tarefa — Escolha Geração geral de texto.
6. No cartão Métricas e conjuntos de dados, você pode ver uma lista de métricas disponíveis e conjuntos de dados instantâneos integrados. Os conjuntos de dados mudam com base na tarefa selecionada. Neste tutorial, deixe as opções padrão selecionadas.
7. Resultados da avaliação — Especifique o S3 URI do diretório em que você deseja que os resultados do seu trabalho de avaliação do modelo sejam salvos. Escolha Browse S3 para pesquisar um local no Amazon S3.
8. IAMFunção do Amazon Bedrock — Escolha o botão de rádio Criar uma nova função.
9. (Opcional) Em Nome da função de serviço, altere o sufixo da função que será criada em seu nome. As funções criadas dessa forma sempre começarão com Amazon-Bedrock- -Role- IAM.
10. Um bucket de saída é sempre necessário para um trabalho de avaliação automática do modelo e deve ser específico na função IAM de serviço. Se você já especificou um bucket nos resultados da avaliação, esse campo será pré-preenchido.
11. Em seguida, escolha Criar função.
Para iniciar o trabalho de avaliação de modelo, escolha Criar.

Depois que o trabalho for iniciado com sucesso, o status mudará para Em andamento. Quando o trabalho for concluído, o status será alterado para Concluído.

Para interromper um trabalho de avaliação de modelo que está atualmente em andamento, escolha Parar avaliação. O status do trabalho de avaliação do modelo mudará de Em andamento para Parando. Depois que o status do trabalho for alterado para Parado.

Para saber como avaliar, visualizar e fazer download dos resultados do trabalho de avaliação de modelos, consulte Resultados de um trabalho de avaliação de modelo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos básicos

Trabalhos de avaliação de modelos baseados em humanos