Use um conjunto de dados de prompt personalizado para avaliação do modelo no Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use um conjunto de dados de prompt personalizado para avaliação do modelo no Amazon Bedrock

Você pode usar um conjunto de dados de prompts personalizado em trabalhos de avaliação de modelo.

Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3 e usar JSON o formato de linha e usar a extensão de arquivo. .jsonl Ao fazer o upload do conjunto de dados para o Amazon S3, certifique-se de atualizar a configuração Cross Origin Resource Sharing CORS () no bucket do S3. Para saber mais sobre as CORS permissões necessárias, consultePermissão de compartilhamento de recursos de origem cruzada (CORS) necessária em buckets do S3.

Requisitos para conjuntos de dados de prompts personalizados usados em trabalhos automáticos de avaliação de modelo

Nos trabalhos automáticos de avaliação de modelo, você pode usar um conjunto de dados de prompts personalizado para cada métrica selecionada no trabalho de avaliação de modelo. Os conjuntos de dados personalizados usam o formato de JSON linha (.jsonl), e cada linha deve ser um JSON objeto válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.

Você deve usar as chaves a seguir em um conjunto de dados personalizado.

  • prompt: necessária para indicar a entrada para as seguintes tarefas:

    • O prompt ao qual o modelo deve responder em caso de geração de texto geral.

    • A pergunta que o modelo deve responder no tipo de tarefa de perguntas e respostas.

    • O texto que o modelo deve resumir na tarefa de resumo de texto.

    • O texto que o modelo deve classificar nas tarefas de classificação.

  • referenceResponse: necessária para indicar a resposta real em relação à qual o modelo é avaliado para os seguintes tipos de tarefas:

    • A resposta para todos os prompts em tarefas de perguntas e respostas.

    • A resposta para todas as avaliações de precisão e robustez.

  • (Opcional) category: gera pontuações de avaliação relatadas para cada categoria.

Por exemplo, a precisão exige tanto a pergunta a ser feita quanto a resposta para comparar com a resposta do modelo. Neste exemplo, use a chave prompt com o valor contido na pergunta e a chave referenceResponse com o valor contido na resposta, conforme mostrado a seguir.

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

O exemplo anterior é uma única linha de um arquivo de entrada de JSON linha que será enviada ao seu modelo como uma solicitação de inferência. O modelo será invocado para cada registro desse tipo em seu conjunto de dados JSON de linha. O exemplo de entrada de dados a seguir se refere a uma tarefa de perguntas e respostas que usa uma chave category opcional para avaliação.

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Para saber mais sobre os requisitos de formato para trabalhos de avaliação de modelo com a participação de operadores humanos, consulte Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos.

Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos

No formato JSON de linha, cada linha é um JSON objeto válido. Um conjunto de dados de prompts pode ter até 1.000 prompts por trabalho de avaliação de modelo.

Uma entrada de prompt válida deve conter a prompt chave. Ambos category referenceResponse são opcionais. Use a chave category para rotular o prompt com uma categoria específica que você pode usar para filtrar os resultados ao analisá-los no boletim da avaliação do modelo. Use a chave referenceResponse para especificar a resposta real que os operadores podem consultar durante a avaliação.

Na interface de usuário do operador, o que você especifica para prompt e referenceResponse fica visível para os operadores humanos.

Veja a seguir um exemplo de conjunto de dados personalizado que contém 6 entradas e usa o formato de JSON linha.

{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

O exemplo a seguir é uma única entrada expandida para maior clareza

{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }