Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Buat pekerjaan evaluasi model yang menggunakan model juri di Amazon Bedrock

Mode fokus
Buat pekerjaan evaluasi model yang menggunakan model juri di Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Anda dapat membuat pekerjaan evaluasi model menggunakan AWS Management Console, AWS CLI, atau AWS SDK yang didukung. Gunakan topik ini untuk mempelajari cara membuat pekerjaan evaluasi model yang menggunakan model sebagai hakim.

Pekerjaan ini membutuhkan dua model yang berbeda. Kedua model harus tersedia dalam hal yang sama Wilayah AWS, dan Anda harus memiliki akses ke mereka di AWS akun Anda. Untuk mempelajari lebih lanjut tentang mengakses model, lihatAkses model fondasi Amazon Bedrock.

Model generator yang didukung — model yang akan melakukan inferensi berdasarkan permintaan Anda
Model evaluator yang didukung — model yang akan meninjau penilaian output model generator Anda
  • Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

Gunakan tab berikut untuk mempelajari cara membuat CreateEvaluation. Gunakan inferenceConfig untuk menentukan model generator yang ingin Anda gunakan dalam pekerjaan evaluasi model. Gunakan evaluatorModelConfig untuk menentukan model evaluator yang didukung.

AWS CLI

Contoh berikut menunjukkan cara membuat create-evaluation-job permintaan menggunakan AWS CLI. Gunakan tabel yang ditemukan dalam metrik model untuk model sebagai hakim untuk melihat cara memformat dengan benar. metricNames Pastikan itu evaluationContext ditentukan sebagaiModel.

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
SDK for Python

Saat membuat pekerjaan evaluasi model berbasis manusia di luar konsol Amazon Bedrock, Anda perlu membuat ARN definisi aliran SageMaker AI Amazon.

Definisi aliran ARN adalah tempat alur kerja pekerjaan evaluasi model didefinisikan. Definisi alur digunakan untuk menentukan antarmuka pekerja dan tim kerja yang ingin Anda tetapkan ke tugas, dan menghubungkan ke Amazon Bedrock.

Untuk pekerjaan evaluasi model yang dimulai menggunakan operasi Amazon Bedrock API, Anda harus membuat ARN definisi alur menggunakan atau SDK AWS CLI yang AWS didukung. Untuk mempelajari lebih lanjut tentang cara kerja definisi alur, dan membuatnya secara terprogram, lihat Membuat Alur Kerja Tinjauan Manusia (API) di Panduan Pengembang SageMaker AI.

Dalam CreateFlowDefinitionAnda harus menentukan AWS/Bedrock/Evaluation sebagai input keAwsManagedHumanLoopRequestSource. Peran layanan Amazon Bedrock juga harus memiliki izin untuk mengakses bucket keluaran definisi aliran.

Berikut ini adalah contoh permintaan menggunakan AWS CLI. Dalam permintaan tersebut, ARN HumanTaskUiArn adalah ARN milik SageMaker AI. Di ARN, Anda hanya dapat memodifikasi file. Wilayah AWS

aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Wilayah AWS:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'

Contoh kode berikut menunjukkan cara membuat pekerjaan evaluasi model yang menggunakan pekerja manusia melalui SDK untuk SDK untuk Python.

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)

Contoh berikut menunjukkan cara membuat create-evaluation-job permintaan menggunakan AWS CLI. Gunakan tabel yang ditemukan dalam metrik model untuk model sebagai hakim untuk melihat cara memformat dengan benar. metricNames Pastikan itu evaluationContext ditentukan sebagaiModel.

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.