Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memahami hasil pekerjaan evaluasi manusia
Saat Anda membuat pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda memilih satu atau lebih jenis metrik. Ketika anggota tim kerja mengevaluasi respons di portal pekerja, respons mereka disimpan di objek
json. Bagaimana tanggapan tersebut disimpan berubah berdasarkan jenis metrik yang dipilih saat pekerjaan dibuat.humanAnswers
Bagian berikut menjelaskan perbedaan-perbedaan ini, dan memberikan contoh.
JSONreferensi keluaran
Ketika pekerjaan evaluasi model selesai, hasilnya disimpan di Amazon S3 sebagai JSON file. JSONObjek berisi tiga node tingkat tinggihumanEvaluationResult
,inputRecord
, dan modelResponses
humanEvaluationResult
Kuncinya adalah simpul tingkat tinggi yang berisi respons dari tim kerja yang ditugaskan ke pekerjaan evaluasi model. inputRecord
Kuncinya adalah simpul tingkat tinggi yang berisi petunjuk yang diberikan kepada model saat pekerjaan evaluasi model dibuat. modelResponses
Kuncinya adalah simpul tingkat tinggi yang berisi respons terhadap petunjuk dari model.
Tabel berikut merangkum pasangan nilai kunci yang ditemukan dalam JSON output dari pekerjaan evaluasi model.
Bagian prosiding memberikan rincian yang lebih terperinci tentang setiap pasangan nilai kunci.
Parameter | Contoh | Deskripsi |
---|---|---|
|
arn:aws:sagemaker:us-west-2:
|
ARNAlur kerja tinjauan manusia (definisi aliran) yang menciptakan loop manusia. |
humanAnswers |
Daftar JSON objek khusus untuk metrik evaluasi yang dipilih. Untuk mempelajari lebih lanjut lihat,Pasangan nilai kunci ditemukan di bawah humanAnswers. |
Daftar JSON objek yang berisi tanggapan pekerja. |
|
system-generated-hash |
Sebuah sistem menghasilkan string hex 40 karakter. |
inputRecord |
|
JSONObjek yang berisi prompt entri dari dataset input. |
modelResponses |
|
Tanggapan individu dari model. |
inputContent |
|
Konten input loop manusia diperlukan untuk memulai loop manusia di bucket Amazon S3 Anda. |
modelResponseIdMap |
|
Menjelaskan bagaimana setiap model direpresentasikan dalam |
Pasangan nilai kunci ditemukan di bawah humanEvaluationResult
Pasangan nilai kunci berikut ditemukan humanEvaluationResult
di bawah output pekerjaan evaluasi model Anda.
Untuk pasangan nilai kunci yang terkait denganhumanAnswers
, lihatPasangan nilai kunci ditemukan di bawah humanAnswers.
flowDefinitionArn
-
Definisi aliran yang digunakan untuk menyelesaikan pekerjaan evaluasi model. ARN
-
Contoh:
arn:aws:sagemaker:us-west-2:
111122223333
:flow-definition/flow-definition-name
humanLoopName
-
Sebuah sistem menghasilkan string hex 40 karakter.
inputContent
-
Nilai kunci ini menjelaskan jenis metrik, dan instruksi yang Anda berikan untuk pekerja di portal pekerja.
-
additionalDataS3Uri
: Lokasi di Amazon S3 tempat instruksi untuk pekerja disimpan. -
instructions
: Instruksi yang Anda berikan kepada pekerja di portal pekerja. -
evaluationMetrics
: Nama metrik dan deskripsinya. Nilai kuncinyametricType
adalah alat yang diberikan kepada pekerja untuk mengevaluasi respons model.
-
modelResponseIdMap
-
Pasangan nilai kunci ini mengidentifikasi nama lengkap model yang dipilih, dan bagaimana pilihan pekerja dipetakan ke model dalam pasangan nilai
humanAnswers
kunci.
Pasangan nilai kunci ditemukan di bawah inputRecord
Entri berikut menjelaskan pasangan nilai inputRecord
kunci.
prompt
-
Teks prompt dikirim ke model.
category
-
Kategori opsional yang mengklasifikasikan prompt. Terlihat oleh pekerja di portal pekerja selama evaluasi model.
-
Contoh:
"American cities"
referenceResponse
-
Bidang opsional dari input yang JSON digunakan untuk menentukan kebenaran dasar yang Anda ingin referensi pekerja selama evaluasi
responses
-
Bidang opsional dari input JSON yang berisi tanggapan dari model lain.
Contoh catatan JSON masukan.
{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier":
"meta-textgeneration-llama-codellama-7b"
, "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Pasangan nilai kunci ditemukan di bawah modelResponses
Array pasangan nilai kunci yang berisi respons dari model, dan model mana yang memberikan respons.
text
-
Respons model terhadap prompt.
modelIdentifier
-
Nama modul.
Pasangan nilai kunci ditemukan di bawah humanAnswers
Array pasangan nilai kunci yang berisi respons dari model, dan bagaimana pekerja mengevaluasi model di
acceptanceTime
-
Ketika pekerja menerima tugas di portal pekerja.
submissionTime
-
Ketika pekerja mengajukan tanggapan mereka.
timeSpentInSeconds
-
Berapa lama pekerja menghabiskan menyelesaikan tugas.
workerId
-
ID pekerja yang menyelesaikan tugas.
workerMetadata
-
Metadata tentang tim kerja mana yang ditugaskan untuk pekerjaan evaluasi model ini.
Format answerContent
JSON array
Struktur jawaban tergantung pada metrik evaluasi yang dipilih saat pekerjaan evaluasi model dibuat. Setiap respons atau jawaban pekerja dicatat dalam JSON objek baru.
answerContent
-
evaluationResults
berisi tanggapan pekerja.-
Ketika tombol Pilihan dipilih, hasil dari setiap pekerja adalah sebagai
"evaluationResults": "comparisonChoice"
.metricName
: Nama metrikresult
: JSON Objek menunjukkan model mana yang dipilih pekerja menggunakan salah satu0
atau1
. Untuk melihat nilai mana model dipetakan untuk dilihat,modelResponseIdMap
. -
Ketika skala Likert, perbandingan dipilih, hasil dari setiap pekerja adalah sebagai.
"evaluationResults": "comparisonLikertScale"
metricName
: Nama metrik.leftModelResponseId
: MenunjukkanmodelResponseIdMap
yang ditampilkan di sisi kiri portal pekerja.rightModelResponseId
: MenunjukkanmodelResponseIdMap
yang ditampilkan di sisi kiri portal pekerja.result
: JSON Objek menunjukkan model mana yang dipilih pekerja menggunakan salah satu0
atau1
. Untuk melihat nilai model mana yang dipetakan untuk dilihat,modelResponseIdMap
-
Ketika peringkat Ordinal dipilih, hasil dari setiap pekerja adalah sebagai
"evaluationResults": "comparisonRank"
.metricName
: Nama metrikresult
: Sebuah array JSON objek. Untuk setiap model (modelResponseIdMap
) pekerja menyediakan arank
."result": [{ "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 }]
-
Ketika skala Likert, evaluasi respons model tunggal dipilih, hasil pekerja disimpan.
"evaluationResults": "individualLikertScale"
Ini adalah JSON array yang berisi skor untukmetricName
ditentukan ketika pekerjaan dibuat.metricName
: Nama metrik.modelResponseId
: Model yang diberi skor. Untuk melihat nilai mana model dipetakan untuk dilihat,modelResponseIdMap
.result
: Pasangan nilai kunci yang menunjukkan nilai skala likert yang dipilih oleh pekerja. -
Ketika jempol atas/bawah dipilih, hasil dari pekerja disimpan sebagai array. JSON
"evaluationResults": "thumbsUpDown"
metricName
: Nama metrik.result
: Entahtrue
ataufalse
yang berkaitan dengan.metricName
Ketika seorang pekerja memilih acungan jempol,."result" : true
-
Contoh output dari output pekerjaan evaluasi model
JSONObjek berikut adalah contoh output pekerjaan evaluasi model yang disimpan di Amazon S3. Untuk mempelajari lebih lanjut tentang setiap pasangan nilai kunci, lihatJSONreferensi keluaran.
Untuk kejelasan pekerjaan ini hanya berisi tanggapan dari dua pekerja. Beberapa pasangan nilai kunci mungkin juga terpotong agar mudah dibaca
{ "humanEvaluationResult": { "flowDefinitionArn": "arn:aws:sagemaker:
us-west-2
:111122223333
:flow-definition/flow-definition-name
", "humanAnswers": [ { "acceptanceTime": "2024-06-07T22:31:57.066Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "0" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 2 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 3 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 4 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": true } ] } }, "submissionTime": "2024-06-07T22:32:19.640Z", "timeSpentInSeconds": 22.574, "workerId": "ead1ba56c1278175", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07" } } }, { "acceptanceTime": "2024-06-07T22:32:19.721Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "1" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 2 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 3 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 4 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 5 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": false } ] } }, "submissionTime": "2024-06-07T22:32:57.918Z", "timeSpentInSeconds": 38.197, "workerId": "bad258db224c3db6", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094" } } } ], "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e", "inputContent": { "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json", "instructions": "worker instructions provided by the model evaluation job administrator", "evaluationMetrics": [ { "metricName": "Fluency", "metricType": "ComparisonChoice", "description": "Measures the linguistic quality of a generated text." }, { "metricName": "Coherence", "metricType": "ComparisonLikertScale", "description": "Measures the organization and structure of a generated text." }, { "metricName": "Toxicity", "metricType": "ComparisonRank", "description": "Measures the harmfulness of a generated text." }, { "metricName": "Accuracy", "metricType": "ThumbsUpDown", "description": "Indicates the accuracy of a generated text." }, { "metricName": "Correctness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's satisfaction in the context of the question." }, { "metricName": "Completeness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's inclusion of all relevant information." } ], "disableRandomization": "true" }, "modelResponseIdMap": { "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612", "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } }, "inputRecord": { "prompt": { "text": "What is high intensity interval training?" }, "category": "Fitness", "referenceResponse": { "text": "High-Intensity Interval Training (HIIT)" } }, "modelResponses": [ { "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will", "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612" }, { "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training", "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } ] }