Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erfahren Sie, wie die Ergebnisse Ihres Modellevaluierungsauftrags in Amazon S3 gespeichert werden
Die Ausgabe eines Auftrags zur Modellbewertung wird im Amazon-S3-Bucket gespeichert, den Sie bei der Erstellung des Auftrags zur Modellbewertung angegeben haben. Die Ergebnisse von Modellevaluierungsaufträgen werden als JSON Zeilendateien (.jsonl
) gespeichert.
Die Ergebnisse des Auftrags zur Modellbewertung werden in dem S3-Bucket gespeichert, den Sie wie folgt angegeben haben.
-
Für Aufträge zur Modellbewertung, bei denen Mitarbeiter eingesetzt werden:
s3://
user-specified-S3-output-path
/job-name
/job-uuid
/datasets/dataset-name
/file-uuid
_output.jsonl -
Für Aufträge zur automatischen Modellbewertung:
s3://
user-specified-S3-output-path
/job-name
/job-uuid
/models/model-id
/taskTypes/task-type
/datasets/dataset
/file-uuid
_output.jsonl
In den folgenden Themen wird beschrieben, wie die Ergebnisse einer automatisierten und von Mitarbeitern durchgeführten Modellbewertung in Amazon S3 gespeichert werden.
Ausgabedaten aus automatisierten Aufträgen zur Modellbewertung
Die Ergebnisse des automatisierten Bewertungsauftrags werden im datasets
-Verzeichnis gespeichert, wenn der Auftragsstatus zu Abgeschlossen wechselt.
Für jeden Metrikdatensatz und den entsprechenden Prompt-Datensatz, den Sie bei der Erstellung des Modellevaluierungsjobs ausgewählt haben, wird im datasets
Verzeichnis eine JSON Zeilendatei generiert. Die Datei verwendet die folgende Namenskonvention:
.metric
_input-dataset
.jsonl
Jedes Ergebnis des Auftrags zur Modellbewertung beginnt mit dem Schlüssel automatedEvaluationResult
. Der erste untergeordnete Schlüssel scores
enthält die Metriken, die Sie in der Amazon-Bedrock-Konsole ausgewählt haben. In diesem Beispiel wurde nur eine einzige Metrik Accuracy
ausgewählt. Es enthält auch result
, wobei es sich um den berechneten Wert für die ausgewählte Metrik handelt. Weitere Informationen darüber, welcher spezifische Wert berechnet wird, finden Sie unter Überprüfen Sie die Metriken für einen automatisierten Modellevaluierungsjob in Amazon Bedrock (Konsole).
Der zweite Schlüssel inputRecord
ist eine Kopie dessen, was Sie in Ihrem Eingabe-Prompt-Datensatz angegeben haben.
Der dritte Schlüssel modelResponses
enthält eine Liste von JSON Objekten, die das Modell enthält, das ARN Sie bei der Erstellung des Modellevaluierungsjobs ausgewählt haben. Es enthält auch die vollständige Antwort des Modells basierend auf der bereitgestellten Eingabeaufforderung.
Im Folgenden finden Sie eine Beispielausgabe für den Aufgabentyp Textzusammenfassung mit nur einer ausgewählten Metrik, und zwar Genauigkeit.
{ "automatedEvaluationResult": { "scores": [{ "metricName": "Accuracy", "result": 0.31920555233955383 }] }, "inputRecord": { "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:", "referenceResponse": "two bodies recovered from flooded coal mine in c. china" }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2", "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it." }] }
Ausgabedaten aus Aufträgen zur Modellbewertung, bei denen Mitarbeiter eingesetzt werden.
Wenn ein Auftrag zur Modellbewertung abgeschlossen ist, werden die folgenden Parameter in den Ausgabedaten angezeigt, die von menschlichen Überprüfungsaufgaben zurückgegeben werden.
Parameter | Wert-Typ | Beispielwerte | Beschreibung |
---|---|---|---|
flowDefinitionArn |
String |
arn:aws:sagemaker:us-west-2: |
Die Amazon-Ressourcennummer (ARN) des Workflows zur Überprüfung durch einen Mitarbeiter (Ablaufdefinition), der zur Erstellung des Human Loop verwendet wurde. |
humanAnswers |
Liste der JSON Objekte |
|
Eine Liste von JSON Objekten, die Antworten von Mitarbeitern enthalten |
|
String | system-generated-hash |
Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen. |
inputRecord |
JSONObjekt |
|
Ein JSON Objekt, das eine Eingabeaufforderung aus dem Eingabe-Datensatz enthält. |
modelResponses |
Liste von JSON Objekten |
|
Die einzelnen Antworten der Modelle. |
inputContent |
Object |
|
Der Inhalt der Human-Loop-Eingabe, der erforderlich ist, um Human Loop in Ihrem S3-Bucket zu starten. |
modelResponseIdMap |
Object |
|
|
Es folgt ein Beispiel für Ausgabedaten aus einem Auftrag zur Modellbewertung.
{ "humanEvaluationResult": [{ "flowDefinitionArn": "arn:aws:sagemaker:
us-west-2
:111122223333
:flow-definition/flow-definition-name
", "humanAnswers": [{ "acceptanceTime": "2023-11-09T19:17:43.107Z", "answerContent": { "evaluationResults": { "thumbsUpDown": [{ "metricName": "Coherence", "modelResponseId": "0", "result": false }, { "metricName": "Accuracy", "modelResponseId": "0", "result": true }], "individualLikertScale": [{ "metricName": "Toxicity", "modelResponseId": "0", "result": 1 }] } }, "submissionTime": "2023-11-09T19:17:52.101Z", "timeSpentInSeconds": 8.994, "workerId": "444455556666", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.AWS-Region.amazonaws.com/AWS-Region_111222
", "sub": "c6aa8eb7-9944-42e9-a6b9-
" } } }], ...Additional response have been truncated for clarity... }], "humanLoopName": "b3b1c64a2166e001e094123456789012", "inputContent":{ "additionalDataS3Uri":"s3://user-specified-S3-output-path
/datasets/dataset-name
/records/record-number
/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"testing", "metricName":"IndividualLikertScale", "ratingMethod":"IndividualLikertScale" } ], "instructions":"some dummy instructions" }, "modelResponseIdMap":{ "0":"arn:aws:bedrock:AWS-Region
::foundation-model/model-id
" } }, "inputRecord": { "category": "Fitness", "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout." }, "modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:AWS-Region::foundation-model/model-id
", "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of" }] } }
In der folgenden Tabelle wird erklärt, wie die Bewertungsmethode, die Sie für jede Metrik in der Amazon-Bedrock-Konsole ausgewählt haben, in Ihrem Amazon-S3-Bucket zurückgegeben wird. Unter dem ersten untergeordneten Schlüssel evaluationResults
wird die gewählte Bewertungsmethode zurückgegeben.
Ausgewählte Bewertungsmethode | In Amazon S3 gespeichert |
---|---|
Likert-Skala – Individuell | IndividualLikertScale |
Likert-Skala – Vergleich | ComparisonLikertScale |
Auswahltasten | ComparisonChoice |
Ordinaler Rang | ComparisonRank |
Daumen hoch/runter | ThumbsUpDown |