Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Créez une tâche d'évaluation de modèle qui utilise un modèle de juge dans Amazon Bedrock

Mode de mise au point
Créez une tâche d'évaluation de modèle qui utilise un modèle de juge dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Vous pouvez créer une tâche d'évaluation de modèle à l'aide du AWS Management Console AWS CLI, ou d'un AWS SDK compatible. Utilisez cette rubrique pour apprendre à créer une tâche d'évaluation de modèle qui utilise un modèle comme juge.

Ce travail nécessite deux modèles différents. Les deux modèles doivent être disponibles de la même manière Région AWS, et vous devez y avoir accès dans votre AWS compte. Pour en savoir plus sur l'accès aux modèles, consultezAccédez aux modèles de fondations Amazon Bedrock.

Modèles de générateur pris en charge : modèle qui effectuera des inférences en fonction de vos instructions
Modèles d'évaluateur pris en charge : le modèle qui examinera la notation des résultats de votre modèle de générateur
  • Vous devez avoir accès à au moins l'un des modèles de fondation Amazon Bedrock suivants. Voici les modèles de juges disponibles. Pour en savoir plus sur l'accès aux modèles et la disponibilité des régions, consultezAccédez aux modèles de fondations Amazon Bedrock.

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

Utilisez les onglets suivants pour savoir comment créer un CreateEvaluation. inferenceConfigÀ utiliser pour spécifier le modèle de générateur que vous souhaitez utiliser dans la tâche d'évaluation du modèle. evaluatorModelConfigÀ utiliser pour spécifier le modèle d'évaluateur pris en charge.

AWS CLI

L'exemple suivant montre comment effectuer une create-evaluation-job demande à l'aide du AWS CLI. Utilisez le tableau trouvé dans les métriques du modèle pour le modèle en tant que juge pour voir comment formater correctement lemetricNames. Assurez-vous qu'il evaluationContext est spécifié commeModel.

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
SDK for Python

Lorsque vous créez une tâche d'évaluation de modèle basée sur l'humain en dehors de la console Amazon Bedrock, vous devez créer un ARN de définition de flux Amazon SageMaker AI.

L'ARN de définition de flux est l'endroit où le flux de travail d'une tâche d'évaluation de modèle est défini. La définition du flux est utilisée pour définir l'interface de travail et l'équipe de travail que vous souhaitez affecter à la tâche, ainsi que pour vous connecter à Amazon Bedrock.

Pour les tâches d'évaluation de modèles lancées à l'aide des opérations de l'API Amazon Bedrock, vous devez créer un ARN de définition de flux à l'aide du SDK AWS CLI ou d'un AWS SDK compatible. Pour en savoir plus sur le fonctionnement des définitions de flux et sur leur création par programmation, consultez la section Créer un flux de travail de révision humaine (API) dans le guide du développeur d'SageMaker IA.

Dans le, CreateFlowDefinitionvous devez spécifier AWS/Bedrock/Evaluation comme entrée dans leAwsManagedHumanLoopRequestSource. Le rôle de service Amazon Bedrock doit également être autorisé à accéder au compartiment de sortie de la définition du flux.

Voici un exemple de demande utilisant le AWS CLI. Dans la demande, il HumanTaskUiArn s'agit d'un ARN appartenant à l' SageMaker IA. Dans l'ARN, vous ne pouvez modifier que le Région AWS.

aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Région AWS:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'

L'exemple de code suivant vous montre comment créer une tâche d'évaluation de modèle qui utilise des travailleurs humains via le SDK pour Python.

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)

L'exemple suivant montre comment effectuer une create-evaluation-job demande à l'aide du AWS CLI. Utilisez le tableau trouvé dans les métriques du modèle pour le modèle en tant que juge pour voir comment formater correctement lemetricNames. Assurez-vous qu'il evaluationContext est spécifié commeModel.

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }

Rubrique suivante :

Lister les tâches

Rubrique précédente :

Mistral Large
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.