As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Use um conjunto de dados de prompt personalizado para avaliação do modelo no Amazon Bedrock
Você pode usar um conjunto de dados de prompts personalizado em trabalhos de avaliação de modelo.
Os conjuntos de dados de prompts personalizados devem ser armazenados no Amazon S3 e usar JSON o formato de linha e usar a extensão de arquivo. .jsonl
Ao fazer o upload do conjunto de dados para o Amazon S3, certifique-se de atualizar a configuração Cross Origin Resource Sharing CORS () no bucket do S3. Para saber mais sobre as CORS permissões necessárias, consultePermissão de compartilhamento de recursos de origem cruzada (CORS) necessária em buckets do S3.
Tópicos
Requisitos para conjuntos de dados de prompts personalizados usados em trabalhos automáticos de avaliação de modelo
Nos trabalhos automáticos de avaliação de modelo, você pode usar um conjunto de dados de prompts personalizado para cada métrica selecionada no trabalho de avaliação de modelo. Os conjuntos de dados personalizados usam o formato de JSON linha (.jsonl
), e cada linha deve ser um JSON objeto válido. Um conjunto de dados pode ter até 1.000 prompts por trabalho de avaliação automática.
Você deve usar as chaves a seguir em um conjunto de dados personalizado.
-
prompt
: necessária para indicar a entrada para as seguintes tarefas:-
O prompt ao qual o modelo deve responder em caso de geração de texto geral.
-
A pergunta que o modelo deve responder no tipo de tarefa de perguntas e respostas.
-
O texto que o modelo deve resumir na tarefa de resumo de texto.
-
O texto que o modelo deve classificar nas tarefas de classificação.
-
-
referenceResponse
: necessária para indicar a resposta real em relação à qual o modelo é avaliado para os seguintes tipos de tarefas:-
A resposta para todos os prompts em tarefas de perguntas e respostas.
-
A resposta para todas as avaliações de precisão e robustez.
-
-
(Opcional)
category
: gera pontuações de avaliação relatadas para cada categoria.
Por exemplo, a precisão exige tanto a pergunta a ser feita quanto a resposta para comparar com a resposta do modelo. Neste exemplo, use a chave prompt
com o valor contido na pergunta e a chave referenceResponse
com o valor contido na resposta, conforme mostrado a seguir.
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
O exemplo anterior é uma única linha de um arquivo de entrada de JSON linha que será enviada ao seu modelo como uma solicitação de inferência. O modelo será invocado para cada registro desse tipo em seu conjunto de dados JSON de linha. O exemplo de entrada de dados a seguir se refere a uma tarefa de perguntas e respostas que usa uma chave category
opcional para avaliação.
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
Para saber mais sobre os requisitos de formato para trabalhos de avaliação de modelo com a participação de operadores humanos, consulte Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos.
Requisitos para conjuntos de dados de prompts personalizados em trabalhos de avaliação de modelo com a participação de operadores humanos
No formato JSON de linha, cada linha é um JSON objeto válido. Um conjunto de dados de prompts pode ter até 1.000 prompts por trabalho de avaliação de modelo.
Uma entrada de prompt válida deve conter a prompt
chave. Ambos category
referenceResponse
são opcionais. Use a chave category
para rotular o prompt com uma categoria específica que você pode usar para filtrar os resultados ao analisá-los no boletim da avaliação do modelo. Use a chave referenceResponse
para especificar a resposta real que os operadores podem consultar durante a avaliação.
Na interface de usuário do operador, o que você especifica para prompt
e referenceResponse
fica visível para os operadores humanos.
Veja a seguir um exemplo de conjunto de dados personalizado que contém 6 entradas e usa o formato de JSON linha.
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
O exemplo a seguir é uma única entrada expandida para maior clareza
{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }