Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vous pouvez créer une tâche d'évaluation de modèle à l'aide du AWS Management Console AWS CLI, ou d'un AWS SDK compatible. Utilisez cette rubrique pour apprendre à créer une tâche d'évaluation de modèle qui utilise un modèle comme juge.
Ce travail nécessite deux modèles différents. Les deux modèles doivent être disponibles de la même manière Région AWS, et vous devez y avoir accès dans votre AWS compte. Pour en savoir plus sur l'accès aux modèles, consultezAccédez aux modèles de fondations Amazon Bedrock.
Modèles de générateur pris en charge : modèle qui effectuera des inférences en fonction de vos instructions
-
Modèles de fondation — Informations sur le modèle de fondation Amazon Bedrock
-
Modèles de fondation personnalisés — Personnalisez votre modèle pour améliorer ses performances en fonction de votre cas d'utilisation
-
Modèles importés — Importer un modèle personnalisé dans Amazon Bedrock
-
Modèles avec débit provisionné — Augmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock
Modèles d'évaluateur pris en charge : le modèle qui examinera la notation des résultats de votre modèle de générateur
-
Vous devez avoir accès à au moins l'un des modèles de fondation Amazon Bedrock suivants. Voici les modèles de juges disponibles. Pour en savoir plus sur l'accès aux modèles et la disponibilité des régions, consultezAccédez aux modèles de fondations Amazon Bedrock.
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
Utilisez les onglets suivants pour savoir comment créer un CreateEvaluation
. inferenceConfig
À utiliser pour spécifier le modèle de générateur que vous souhaitez utiliser dans la tâche d'évaluation du modèle. evaluatorModelConfig
À utiliser pour spécifier le modèle d'évaluateur pris en charge.
L'exemple suivant montre comment effectuer une create-evaluation-job
demande à l'aide du AWS CLI. Utilisez le tableau trouvé dans les métriques du modèle pour le modèle en tant que juge pour voir comment formater correctement lemetricNames
. Assurez-vous qu'il evaluationContext
est spécifié commeModel
.
aws bedrock create-evaluation-job
{
"jobName": "model-eval-llmaj"
,
"roleArn": "arn:aws:iam::111122223333
:role/Amazon-Bedrock-ModelAsAJudgeTest",
"evaluationContext": "Model"
,
"evaluationConfig": {
"automated": {
"datasetMetricConfigs": [
{
"taskType": "General",
"dataset": {
"name": "text_dataset",
"datasetLocation": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
}
},
"metricNames": [
"Builtin.Correctness",
"Builtin.Completeness"
]
}
],
"evaluatorModelConfig": {
"bedrockEvaluatorModels": [
{
"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
}
]
}
}
},
"inferenceConfig": {
"models": [
{
"bedrockModel": {
"modelIdentifier": "anthropic.claude-v2",
"inferenceParams": "{}"
}
}
]
},
"outputDataConfig": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
}
}