Créez une tâche d'évaluation de modèle qui utilise un modèle de juge dans Amazon Bedrock

Mode de mise au point

Créez une tâche d'évaluation de modèle qui utilise un modèle de juge dans Amazon Bedrock - Amazon Bedrock

Vous pouvez créer une tâche d'évaluation de modèle à l'aide du AWS Management Console AWS CLI, ou d'un AWS SDK compatible. Utilisez cette rubrique pour apprendre à créer une tâche d'évaluation de modèle qui utilise un modèle comme juge.

Ce travail nécessite deux modèles différents. Les deux modèles doivent être disponibles de la même manière Région AWS, et vous devez y avoir accès dans votre AWS compte. Pour en savoir plus sur l'accès aux modèles, consultezAccédez aux modèles de fondations Amazon Bedrock.

Modèles de générateur pris en charge : modèle qui effectuera des inférences en fonction de vos instructions

Modèles de fondation — Informations sur le modèle de fondation Amazon Bedrock
Modèles de fondation personnalisés — Personnalisez votre modèle pour améliorer ses performances en fonction de votre cas d'utilisation
Modèles importés — Importer un modèle personnalisé dans Amazon Bedrock
Modèles avec débit provisionné — Augmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock

Modèles d'évaluateur pris en charge : le modèle qui examinera la notation des résultats de votre modèle de générateur

Vous devez avoir accès à au moins l'un des modèles de fondation Amazon Bedrock suivants. Voici les modèles de juges disponibles. Pour en savoir plus sur l'accès aux modèles et la disponibilité des régions, consultezAccédez aux modèles de fondations Amazon Bedrock.
- Mistral Large – mistral.mistral-large-2402-v1:0
- Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0
- Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
- Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

Utilisez les onglets suivants pour savoir comment créer un CreateEvaluation. inferenceConfigÀ utiliser pour spécifier le modèle de générateur que vous souhaitez utiliser dans la tâche d'évaluation du modèle. evaluatorModelConfigÀ utiliser pour spécifier le modèle d'évaluateur pris en charge.

AWS CLI

L'exemple suivant montre comment effectuer une create-evaluation-job demande à l'aide du AWS CLI. Utilisez le tableau trouvé dans les métriques du modèle pour le modèle en tant que juge pour voir comment formater correctement lemetricNames. Assurez-vous qu'il evaluationContext est spécifié commeModel.


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

SDK for Python

Lorsque vous créez une tâche d'évaluation de modèle basée sur l'humain en dehors de la console Amazon Bedrock, vous devez créer un ARN de définition de flux Amazon SageMaker AI.

L'ARN de définition de flux est l'endroit où le flux de travail d'une tâche d'évaluation de modèle est défini. La définition du flux est utilisée pour définir l'interface de travail et l'équipe de travail que vous souhaitez affecter à la tâche, ainsi que pour vous connecter à Amazon Bedrock.

Pour les tâches d'évaluation de modèles lancées à l'aide des opérations de l'API Amazon Bedrock, vous devez créer un ARN de définition de flux à l'aide du SDK AWS CLI ou d'un AWS SDK compatible. Pour en savoir plus sur le fonctionnement des définitions de flux et sur leur création par programmation, consultez la section Créer un flux de travail de révision humaine (API) dans le guide du développeur d'SageMaker IA.

Dans le, CreateFlowDefinitionvous devez spécifier AWS/Bedrock/Evaluation comme entrée dans leAwsManagedHumanLoopRequestSource. Le rôle de service Amazon Bedrock doit également être autorisé à accéder au compartiment de sortie de la définition du flux.

Voici un exemple de demande utilisant le AWS CLI. Dans la demande, il HumanTaskUiArn s'agit d'un ARN appartenant à l' SageMaker IA. Dans l'ARN, vous ne pouvez modifier que le Région AWS.


aws sagemaker create-flow-definition --cli-input-json '
{
	"FlowDefinitionName": "human-evaluation-task01",
	"HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },
    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:Région AWS:111122223333:workteam/private-crowd/my-workteam",
		## The Task UI ARN is provided by the service team, you can only modify the AWS Region.
		"HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation"
		"TaskTitle": "Human review tasks",
		"TaskDescription": "Provide a real good answer",
		"TaskCount": 1,
		"TaskAvailabilityLifetimeInSeconds": 864000,
		"TaskTimeLimitInSeconds": 3600,
		"TaskKeywords": [
		    "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

L'exemple de code suivant vous montre comment créer une tâche d'évaluation de modèle qui utilise des travailleurs humains via le SDK pour Python.


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

anchor anchor


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mistral Large

Lister les tâches

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Créez une tâche d'évaluation de modèle qui utilise un modèle de juge dans Amazon Bedrock

Modèles de générateur pris en charge : modèle qui effectuera des inférences en fonction de vos instructions

Modèles d'évaluateur pris en charge : le modèle qui examinera la notation des résultats de votre modèle de générateur

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?