Requisitos para conjuntos de dados instantâneos personalizados em um trabalho de avaliação de modelo que usa um modelo como juiz - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Requisitos para conjuntos de dados instantâneos personalizados em um trabalho de avaliação de modelo que usa um modelo como juiz

Para criar um trabalho de avaliação de modelo que usa um modelo como juiz, você deve especificar um conjunto de dados imediato. Os prompts são então usados durante a inferência com o modelo selecionado para avaliação. Esse conjunto de dados rápido usa o mesmo formato dos trabalhos de avaliação automática de modelos. Agora, alguns pares de valores-chave são necessários quando você usa a métrica Correctness (Builtin.Correctness) ou a métrica Completueness (Builtin.Completeness).

Você deve criar um conjunto de dados de prompt personalizado em um trabalho de avaliação de modelo que usa um modelo como juiz. Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3, usar o formato de linha JSON e usar a extensão de arquivo .jsonl. Cada linha deve ser um objeto JSON válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.

Para trabalhos criados usando o console, você deve atualizar a configuração do Cross Origin Resource Sharing (CORS) no bucket do S3. Para saber mais sobre as permissões de CORS necessárias, consulte Permissões necessárias de compartilhamento de recursos de origem cruzada (CORS) em buckets do S3.

Pares de valores-chave usados no conjunto de dados imediato para trabalhos de avaliação de modelos que usam um modelo como juiz
  • prompt: necessária para indicar a entrada para as seguintes tarefas:

    • O prompt ao qual o modelo deve responder em caso de geração de texto geral.

    • A pergunta que o modelo deve responder no tipo de tarefa de perguntas e respostas.

    • O texto que o modelo deve resumir na tarefa de resumo de texto.

    • O texto que o modelo deve classificar nas tarefas de classificação.

  • referenceResponse— necessário para indicar a resposta verdadeira básica para as métricas de integridade e exatidão.

    • A resposta correta.

    • A resposta completa.

  • (Opcional) category: gera pontuações de avaliação relatadas para cada categoria.

O prompt a seguir foi expandido para maior clareza. No conjunto de dados real do prompt, cada linha (um prompt) deve ser um objeto JSON válido.

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }