Buat pekerjaan evaluasi model yang menggunakan model juri di Amazon Bedrock

Mode fokus

Buat pekerjaan evaluasi model yang menggunakan model juri di Amazon Bedrock - Amazon Bedrock

Anda dapat membuat pekerjaan evaluasi model menggunakan AWS Management Console, AWS CLI, atau AWS SDK yang didukung. Gunakan topik ini untuk mempelajari cara membuat pekerjaan evaluasi model yang menggunakan model sebagai hakim.

Pekerjaan ini membutuhkan dua model yang berbeda. Kedua model harus tersedia dalam hal yang sama Wilayah AWS, dan Anda harus memiliki akses ke mereka di AWS akun Anda. Untuk mempelajari lebih lanjut tentang mengakses model, lihatAkses model fondasi Amazon Bedrock.

Model generator yang didukung — model yang akan melakukan inferensi berdasarkan permintaan Anda

Model pondasi — Informasi model pondasi Amazon Bedrock
Model pondasi yang disesuaikan - Sesuaikan model Anda untuk meningkatkan kinerjanya untuk kasus penggunaan Anda
Model yang diimpor - Impor model yang disesuaikan ke Amazon Bedrock
Model dengan Throughput yang Disediakan - Tingkatkan kapasitas pemanggilan model dengan Provisioned Throughput di Amazon Bedrock

Model evaluator yang didukung — model yang akan meninjau penilaian output model generator Anda

Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.
- Mistral Large – mistral.mistral-large-2402-v1:0
- Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0
- Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
- Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

Gunakan tab berikut untuk mempelajari cara membuat CreateEvaluation. Gunakan inferenceConfig untuk menentukan model generator yang ingin Anda gunakan dalam pekerjaan evaluasi model. Gunakan evaluatorModelConfig untuk menentukan model evaluator yang didukung.

AWS CLI

Contoh berikut menunjukkan cara membuat create-evaluation-job permintaan menggunakan AWS CLI. Gunakan tabel yang ditemukan dalam metrik model untuk model sebagai hakim untuk melihat cara memformat dengan benar. metricNames Pastikan itu evaluationContext ditentukan sebagaiModel.


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

SDK for Python

Saat membuat pekerjaan evaluasi model berbasis manusia di luar konsol Amazon Bedrock, Anda perlu membuat ARN definisi aliran SageMaker AI Amazon.

Definisi aliran ARN adalah tempat alur kerja pekerjaan evaluasi model didefinisikan. Definisi alur digunakan untuk menentukan antarmuka pekerja dan tim kerja yang ingin Anda tetapkan ke tugas, dan menghubungkan ke Amazon Bedrock.

Untuk pekerjaan evaluasi model yang dimulai menggunakan operasi Amazon Bedrock API, Anda harus membuat ARN definisi alur menggunakan atau SDK AWS CLI yang AWS didukung. Untuk mempelajari lebih lanjut tentang cara kerja definisi alur, dan membuatnya secara terprogram, lihat Membuat Alur Kerja Tinjauan Manusia (API) di Panduan Pengembang SageMaker AI.

Dalam CreateFlowDefinitionAnda harus menentukan AWS/Bedrock/Evaluation sebagai input keAwsManagedHumanLoopRequestSource. Peran layanan Amazon Bedrock juga harus memiliki izin untuk mengakses bucket keluaran definisi aliran.

Berikut ini adalah contoh permintaan menggunakan AWS CLI. Dalam permintaan tersebut, ARN HumanTaskUiArn adalah ARN milik SageMaker AI. Di ARN, Anda hanya dapat memodifikasi file. Wilayah AWS


aws sagemaker create-flow-definition --cli-input-json '
{
	"FlowDefinitionName": "human-evaluation-task01",
	"HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },
    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:Wilayah AWS:111122223333:workteam/private-crowd/my-workteam",
		## The Task UI ARN is provided by the service team, you can only modify the AWS Region.
		"HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation"
		"TaskTitle": "Human review tasks",
		"TaskDescription": "Provide a real good answer",
		"TaskCount": 1,
		"TaskAvailabilityLifetimeInSeconds": 864000,
		"TaskTimeLimitInSeconds": 3600,
		"TaskKeywords": [
		    "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

Contoh kode berikut menunjukkan cara membuat pekerjaan evaluasi model yang menggunakan pekerja manusia melalui SDK untuk SDK untuk Python.


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

anchor anchor


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mistral Large

Daftar pekerjaan

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Buat pekerjaan evaluasi model yang menggunakan model juri di Amazon Bedrock

Model generator yang didukung — model yang akan melakukan inferensi berdasarkan permintaan Anda

Model evaluator yang didukung — model yang akan meninjau penilaian output model generator Anda

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?