Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Machen Sie sich mit den Ergebnissen einer menschlichen Evaluierungsaufgabe vertraut
Als Sie einen Modellevaluierungsjob erstellt haben, bei dem menschliche Mitarbeiter verwendet werden, haben Sie einen oder mehrere Metriktypen ausgewählt. Wenn Mitglieder des Arbeitsteams eine Antwort im Mitarbeiterportal auswerten, werden ihre Antworten im
JSON-Objekt gespeichert. Die Art und Weise, wie diese Antworten gespeichert werden, hängt vom Metriktyp ab, der bei der Erstellung des Jobs ausgewählt wurde.humanAnswers
In den folgenden Abschnitten werden diese Unterschiede und Beispiele erläutert.
JSONAusgangsreferenz
Wenn ein Modellevaluierungsauftrag abgeschlossen ist, werden die Ergebnisse in Amazon S3 als JSON Datei gespeichert. Das JSON Objekt enthält drei Knoten auf hoher EbenehumanEvaluationResult
,inputRecord
, und. modelResponses
Der humanEvaluationResult
Schlüssel ist ein Knoten auf hoher Ebene, der die Antworten des Arbeitsteams enthält, das dem Modellevaluierungsauftrag zugewiesen wurde. Der inputRecord
Schlüssel ist ein Knoten auf hoher Ebene, der die Eingabeaufforderungen enthält, die den Modellen bei der Erstellung des Modellevaluierungsjobs zur Verfügung gestellt wurden. Der modelResponses
Schlüssel ist ein Knoten auf hoher Ebene, der die Antworten auf die Eingabeaufforderungen der Modelle enthält.
In der folgenden Tabelle sind die Schlüssel-Wert-Paare zusammengefasst, die in der JSON Ausgabe des Modellevaluierungsjobs gefunden wurden.
Die nachfolgenden Abschnitte enthalten detailliertere Informationen zu den einzelnen Schlüssel-Wert-Paaren.
Parameter | Beispiel | Beschreibung |
---|---|---|
|
arn:aws:sagemaker:us-west-2:
|
Der ARN Arbeitsablauf für die menschliche Überprüfung (Ablaufdefinition), durch den der menschliche Kreislauf entstanden ist. |
humanAnswers |
Eine Liste von JSON Objekten, die für die ausgewählten Bewertungsmetriken spezifisch sind. Weitere Informationen finden Sie unterSchlüsselwertepaare finden Sie unter humanAnswers. |
Eine Liste von JSON Objekten, die Antworten von Mitarbeitern enthalten. |
|
system-generated-hash |
Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen. |
inputRecord |
|
Ein JSON Objekt, das eine Eingabeaufforderung aus dem Eingabe-Datensatz enthält. |
modelResponses |
|
Die einzelnen Antworten der Modelle. |
inputContent |
|
Der Human-Loop-Eingabeinhalt, der erforderlich ist, um Human Loop in Ihrem Amazon S3 S3-Bucket zu starten. |
modelResponseIdMap |
|
Beschreibt, wie jedes Modell in der dargestellt wird |
Schlüsselwertepaare finden Sie unter humanEvaluationResult
Die folgenden Schlüsselwertpaare wurden humanEvaluationResult
in der Ausgabe Ihres Modellbewertungsjobs unter gefunden.
Informationen zu den Schlüssel-Wert-Paaren, die mit verknüpft sindhumanAnswers
, finden Sie unterSchlüsselwertepaare finden Sie unter humanAnswers.
flowDefinitionArn
-
Die ARN Flow-Definition, die zur Ausführung der Modellevaluierung verwendet wurde.
-
Beispiel:
arn:aws:sagemaker:us-west-2:
111122223333
:flow-definition/flow-definition-name
humanLoopName
-
Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen.
inputContent
-
Dieser Schlüsselwert beschreibt die Metriktypen und die Anweisungen, die Sie für Mitarbeiter im Mitarbeiterportal bereitgestellt haben.
-
additionalDataS3Uri
: Der Ort in Amazon S3, an dem die Anweisungen für Mitarbeiter gespeichert sind. -
instructions
: Die Anweisungen, die Sie den Mitarbeitern im Arbeiterportal zur Verfügung gestellt haben. -
evaluationMetrics
: Der Name der Metrik und ihre Beschreibung. Der entscheidende WertmetricType
ist das Tool, das den Mitarbeitern zur Verfügung gestellt wird, um die Antworten der Modelle zu bewerten.
-
modelResponseIdMap
-
Dieses Schlüsselwertpaar gibt die vollständigen Namen der ausgewählten Modelle an und gibt an, wie die Auswahlmöglichkeiten der Mitarbeiter den Modellen in den
humanAnswers
Schlüsselwertpaaren zugeordnet werden.
Schlüsselwertepaare finden Sie unter inputRecord
Die folgenden Einträge beschreiben die inputRecord
Schlüssel-Wert-Paare.
prompt
-
Der Text der an das Modell gesendeten Aufforderung.
category
-
Eine optionale Kategorie, die die Aufforderung klassifiziert. Sichtbar für Mitarbeiter während der Modellevaluierung im Mitarbeiterportal.
-
Beispiel:
"American cities"
referenceResponse
-
Ein optionales Feld aus der Eingabe, das zur Angabe der Grundwahrheit JSON verwendet wird, auf die sich die Mitarbeiter bei der Bewertung beziehen sollen
responses
-
Ein optionales Feld aus der EingabeJSON, das Antworten aus anderen Modellen enthält.
Ein Beispiel für einen JSON Eingabedatensatz.
{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier":
"meta-textgeneration-llama-codellama-7b"
, "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Schlüsselwertepaare finden Sie unter modelResponses
Ein Array von Schlüsselwertpaaren, das die Antworten der Modelle und das Modell, das die Antworten geliefert hat, enthält.
text
-
Die Antwort des Modells auf die Aufforderung.
modelIdentifier
-
Der Name des Modells
Schlüsselwertepaare finden Sie unter humanAnswers
Eine Reihe von Schlüsselwertpaaren, die die Antworten aus den Modellen und die Art und Weise, wie Mitarbeiter die Modelle bewertet haben, in
acceptanceTime
-
Wann der Mitarbeiter die Aufgabe im Mitarbeiterportal angenommen hat.
submissionTime
-
Als der Arbeitnehmer seine Antwort eingereicht hat.
timeSpentInSeconds
-
Wie viel Zeit hat der Mitarbeiter damit verbracht, die Aufgabe zu erledigen.
workerId
-
Die ID des Mitarbeiters, der die Aufgabe erledigt hat.
workerMetadata
-
Metadaten darüber, welchem Arbeitsteam dieser Modellevaluierungsaufgabe zugewiesen wurde.
Format des Arrays answerContent
JSON
Die Struktur der Antwort hängt von den Bewertungsmetriken ab, die bei der Erstellung des Model-Evaluierungsjobs ausgewählt wurden. Jede Antwort oder Antwort eines Mitarbeiters wird in einem neuen JSON Objekt aufgezeichnet.
answerContent
-
evaluationResults
enthält die Antworten des Arbeiters.-
Wenn die Auswahlschaltflächen ausgewählt sind, lauten die Ergebnisse der einzelnen Mitarbeiter wie folgt
"evaluationResults": "comparisonChoice"
.metricName
: Der Name der Metrikresult
: Das JSON Objekt gibt an, welches Modell der Worker mit einem0
oder ausgewählt hat1
. Um zu sehen, welchem Wert ein Modell zugeordnet ist,modelResponseIdMap
. -
Wenn die Likert-Skala „Vergleich“ ausgewählt ist, sind die Ergebnisse der einzelnen Mitarbeiter identisch.
"evaluationResults": "comparisonLikertScale"
metricName
: Der Name der Metrik.leftModelResponseId
: Gibt an,modelResponseIdMap
was auf der linken Seite des Worker-Portals angezeigt wurde.rightModelResponseId
: Zeigt an,modelResponseIdMap
was auf der linken Seite des Arbeiterportals angezeigt wurde.result
: Das JSON Objekt gibt an, welches Modell der Worker mit einem0
oder ausgewählt hat1
. Um zu sehen, welchem Wert ein Modell zugeordnet ist,modelResponseIdMap
-
Wenn der Ordnungsrang ausgewählt ist, sind die Ergebnisse für jeden Mitarbeiter gleich.
"evaluationResults": "comparisonRank"
metricName
: Der Name der Metrikresult
: Eine Reihe von JSON Objekten. Für jedes Model (modelResponseIdMap
) geben die Arbeiter eine anrank
."result": [{ "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 }]
-
Wenn bei der Likert-Skala die Auswertung einer einzelnen Modellantwort ausgewählt ist, werden die Ergebnisse gespeichert, in
"evaluationResults": "individualLikertScale"
denen ein Mitarbeiter arbeitet. Dies ist ein JSON Array, das die Punktzahlen enthält, die bei der Erstellung des JobsmetricName
angegeben wurden.metricName
: Der Name der Metrik.modelResponseId
: Das Modell, das bewertet wird. Um zu sehen, welchem Wert ein Modell zugeordnet ist,modelResponseIdMap
.result
: Ein Schlüsselwertpaar, das den vom Mitarbeiter ausgewählten Likert-Skalenwert angibt. -
Wenn „Daumen hoch/runter“ ausgewählt ist, werden die Ergebnisse eines Workers als Array gespeichert. JSON
"evaluationResults": "thumbsUpDown"
metricName
: Der Name der Metrik.result
: Entwedertrue
oderfalse
wie es sich auf die beziehtmetricName
. Wenn ein Arbeitnehmer Daumen hoch wählt,"result" : true
.
-
Beispielausgabe einer Jobausgabe zur Modellbewertung
Das folgende JSON Objekt ist ein Beispiel für die Ausgabe eines Modellevaluierungsauftrags, der in Amazon S3 gespeichert ist. Weitere Informationen zu den einzelnen Schlüsselwertepaaren finden Sie unterJSONAusgangsreferenz.
Aus Gründen der Übersichtlichkeit enthält dieser Job nur die Antworten von zwei Mitarbeitern. Einige Schlüsselwertpaare wurden aus Gründen der besseren Lesbarkeit möglicherweise auch gekürzt
{ "humanEvaluationResult": { "flowDefinitionArn": "arn:aws:sagemaker:
us-west-2
:111122223333
:flow-definition/flow-definition-name
", "humanAnswers": [ { "acceptanceTime": "2024-06-07T22:31:57.066Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "0" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 2 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 3 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 4 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": true } ] } }, "submissionTime": "2024-06-07T22:32:19.640Z", "timeSpentInSeconds": 22.574, "workerId": "ead1ba56c1278175", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07" } } }, { "acceptanceTime": "2024-06-07T22:32:19.721Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "1" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 2 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 3 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 4 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 5 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": false } ] } }, "submissionTime": "2024-06-07T22:32:57.918Z", "timeSpentInSeconds": 38.197, "workerId": "bad258db224c3db6", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094" } } } ], "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e", "inputContent": { "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json", "instructions": "worker instructions provided by the model evaluation job administrator", "evaluationMetrics": [ { "metricName": "Fluency", "metricType": "ComparisonChoice", "description": "Measures the linguistic quality of a generated text." }, { "metricName": "Coherence", "metricType": "ComparisonLikertScale", "description": "Measures the organization and structure of a generated text." }, { "metricName": "Toxicity", "metricType": "ComparisonRank", "description": "Measures the harmfulness of a generated text." }, { "metricName": "Accuracy", "metricType": "ThumbsUpDown", "description": "Indicates the accuracy of a generated text." }, { "metricName": "Correctness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's satisfaction in the context of the question." }, { "metricName": "Completeness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's inclusion of all relevant information." } ], "disableRandomization": "true" }, "modelResponseIdMap": { "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612", "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } }, "inputRecord": { "prompt": { "text": "What is high intensity interval training?" }, "category": "Fitness", "referenceResponse": { "text": "High-Intensity Interval Training (HIIT)" } }, "modelResponses": [ { "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will", "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612" }, { "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training", "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } ] }