Comprendi i risultati di un lavoro di valutazione umana - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprendi i risultati di un lavoro di valutazione umana

Quando hai creato un processo di valutazione del modello che utilizza lavoratori umani, hai selezionato uno o più tipi di metriche. Quando i membri del team di lavoro valutano una risposta nel portale di lavoro, le loro risposte vengono salvate nell'oggetto humanAnswers json. Il modo in cui tali risposte vengono archiviate cambia in base al tipo di metrica selezionato al momento della creazione del lavoro.

Le sezioni seguenti spiegano queste differenze e forniscono esempi.

JSONriferimento di uscita

Una volta completato un processo di valutazione del modello, i risultati vengono salvati in Amazon S3 come JSON file. L'JSONoggetto contiene tre nodi humanEvaluationResult di alto livello e modelResponses .La humanEvaluationResult chiave è un nodo di alto livello che contiene le risposte del team di lavoro assegnato al processo di valutazione del modello. inputRecord La inputRecord chiave è un nodo di alto livello che contiene i prompt forniti ai modelli al momento della creazione del processo di valutazione del modello. La modelResponses chiave è un nodo di alto livello che contiene le risposte ai prompt dei modelli.

La tabella seguente riassume le coppie chiave-valore trovate nell'JSONoutput del processo di valutazione del modello.

Le sezioni successive forniscono dettagli più granulari su ciascuna coppia chiave-valore.

Parametro Esempio Descrizione

flowDefinitionArn

arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name

Il flusso ARN di lavoro di revisione umana (definizione del flusso) che ha creato il ciclo umano.

humanAnswers

Un elenco di JSON oggetti specifici per le metriche di valutazione selezionate. Per saperne di più, consulta,Coppie di valori chiave trovate in humanAnswers.

Un elenco di JSON oggetti che contengono le risposte dei lavoratori.

humanLoopName

system-generated-hash Una stringa esadecimale di 40 caratteri generata dal sistema.
inputRecord
"inputRecord": { "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Un JSON oggetto che contiene una richiesta di immissione dal set di dati di input.
modelResponses
"modelResponses": [{ "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id", "text": "the-models-response-to-the-prompt" }]
Le risposte individuali dei modelli.
inputContent
{ "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json", "evaluationMetrics":[ { "description":"brief-name", "metricName":"metric-name", "metricType":"IndividualLikertScale" } ], "instructions":"example instructions" }

Il contenuto di input del loop umano necessario per avviare il loop umano nel tuo bucket Amazon S3.

modelResponseIdMap
{ "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612", "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" }

Descrive come ogni modello è rappresentato in. answerContent

Coppie di valori chiave che si trovano in humanEvaluationResult

Le seguenti coppie chiave-valore si trovano humanEvaluationResult sotto l'output del processo di valutazione del modello.

Per le coppie chiave-valore associate ahumanAnswers, vedereCoppie di valori chiave trovate in humanAnswers.

flowDefinitionArn

  • La definizione ARN del flusso utilizzata per completare il processo di valutazione del modello.

  • Esempio:arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name

humanLoopName

  • Una stringa esadecimale di 40 caratteri generata dal sistema.

inputContent

  • Questo valore chiave descrive i tipi di metriche e le istruzioni fornite ai lavoratori nel portale per i lavoratori.

    • additionalDataS3Uri: la posizione in Amazon S3 in cui vengono salvate le istruzioni per i lavoratori.

    • instructions: Le istruzioni che hai fornito ai lavoratori nel portale dedicato ai lavoratori.

    • evaluationMetrics: Il nome della metrica e la sua descrizione. Il valore chiave metricType è lo strumento fornito ai lavoratori per valutare le risposte dei modelli.

modelResponseIdMap

  • Questa coppia chiave-valore identifica i nomi completi dei modelli selezionati e il modo in cui le scelte dei lavoratori vengono mappate ai modelli nelle coppie humanAnswers chiave-valore.

Le coppie di valori chiave si trovano in inputRecord

Le seguenti voci descrivono le coppie inputRecord chiave-valore.

prompt

  • Il testo del prompt inviato al modello.

category

  • Una categoria opzionale che classifica il prompt. Visibile ai lavoratori nel portale dedicato ai lavoratori durante la valutazione del modello.

  • Esempio:"American cities"

referenceResponse

  • Un campo opzionale dall'input JSON utilizzato per specificare la verità fondamentale a cui si desidera che i lavoratori facciano riferimento durante la valutazione

responses

  • Un campo opzionale dell'input JSON che contiene le risposte di altri modelli.

Un esempio JSON di record di input.

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

Coppie di valori chiave trovate in modelResponses

Una serie di coppie chiave-valore che contiene le risposte dei modelli e il modello che ha fornito le risposte.

text

  • La risposta del modello al prompt.

modelIdentifier

  • Il nome del modello.

Coppie di valori chiave trovate in humanAnswers

Una serie di coppie chiave-valore che contiene le risposte dei modelli e il modo in cui i lavoratori hanno valutato i modelli in

acceptanceTime

  • Quando il lavoratore ha accettato l'attività nel portale dedicato ai lavoratori.

submissionTime

  • Quando il lavoratore ha inviato la risposta.

timeSpentInSeconds

  • Quanto tempo il lavoratore ha impiegato per completare l'attività.

workerId

  • L'ID del lavoratore che ha completato l'attività.

workerMetadata

  • Metadati relativi al team di lavoro assegnato a questo processo di valutazione del modello.

Formato dell'array answerContent JSON

La struttura della risposta dipende dalle metriche di valutazione selezionate al momento della creazione del lavoro di valutazione del modello. Ogni risposta o risposta del lavoratore viene registrata in un nuovo JSON oggetto.

answerContent

  • evaluationResultscontiene le risposte del lavoratore.

    • Quando i pulsanti di scelta sono selezionati, i risultati di ogni lavoratore sono gli stessi"evaluationResults": "comparisonChoice".

      metricName: nome della metrica

      result: L'JSONoggetto indica quale modello il lavoratore ha selezionato utilizzando un 0 o1. Per vedere a quale valore viene mappato un modello,modelResponseIdMap.

    • Quando si seleziona la scala Likert, il confronto, i risultati di ciascun lavoratore sono gli stessi. "evaluationResults": "comparisonLikertScale"

      metricName: Il nome della metrica.

      leftModelResponseId: Indica cosa modelResponseIdMap è stato mostrato sul lato sinistro del portale dei lavoratori.

      rightModelResponseId: Indica cosa modelResponseIdMap è stato mostrato sul lato sinistro del portale dei lavoratori.

      result: L'JSONoggetto indica quale modello il lavoratore ha selezionato utilizzando un 0 o1. Per vedere a quale valore viene mappato un modello, modelResponseIdMap

    • Quando è selezionata la classificazione ordinale, i risultati di ogni lavoratore sono gli stessi. "evaluationResults": "comparisonRank"

      metricName: Il nome della metrica

      result: una serie di JSON oggetti. Per ogni modello (modelResponseIdMap) i worker forniscono unrank.

      "result": [{ "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 }]
    • Quando viene selezionata la scala Likert, viene selezionata la valutazione di una singola risposta del modello, i risultati in "evaluationResults": "individualLikertScale" cui vengono salvati i lavoratori. Questo è un JSON array contenente i punteggi metricName specificati al momento della creazione del lavoro.

      metricName: il nome della metrica.

      modelResponseId: Il modello a cui viene assegnato il punteggio. Per vedere a quale valore viene mappato un modello,modelResponseIdMap.

      result: Una coppia di valori chiave che indica il valore della scala likert selezionato dal lavoratore.

    • Quando si seleziona Thumbs up/down, i risultati di un worker vengono salvati come matrice. JSON "evaluationResults": "thumbsUpDown"

      metricName: Il nome della metrica.

      result: In uno true o false in relazione a. metricName Quando un lavoratore sceglie il pollice in alto,. "result" : true

Esempio di output di un lavoro di valutazione del modello

L'JSONoggetto seguente è un esempio di output di un processo di valutazione del modello salvato in Amazon S3. Per ulteriori informazioni su ciascuna coppia di valori chiave, consulta laJSONriferimento di uscita.

Per chiarezza, questo lavoro contiene solo le risposte di due lavoratori. Alcune coppie chiave-valore potrebbero inoltre essere state troncate per motivi di leggibilità

{ "humanEvaluationResult": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name", "humanAnswers": [ { "acceptanceTime": "2024-06-07T22:31:57.066Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "0" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 1 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 2 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 3 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 4 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": true } ] } }, "submissionTime": "2024-06-07T22:32:19.640Z", "timeSpentInSeconds": 22.574, "workerId": "ead1ba56c1278175", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07" } } }, { "acceptanceTime": "2024-06-07T22:32:19.721Z", "answerContent": { "evaluationResults": { "comparisonChoice": [ { "metricName": "Fluency", "result": { "modelResponseId": "1" } } ], "comparisonLikertScale": [ { "leftModelResponseId": "0", "metricName": "Coherence", "result": 1, "rightModelResponseId": "1" } ], "comparisonRank": [ { "metricName": "Toxicity", "result": [ { "modelResponseId": "0", "rank": 2 }, { "modelResponseId": "1", "rank": 1 } ] } ], "individualLikertScale": [ { "metricName": "Correctness", "modelResponseId": "0", "result": 3 }, { "metricName": "Correctness", "modelResponseId": "1", "result": 4 }, { "metricName": "Completeness", "modelResponseId": "0", "result": 1 }, { "metricName": "Completeness", "modelResponseId": "1", "result": 5 } ], "thumbsUpDown": [ { "metricName": "Accuracy", "modelResponseId": "0", "result": true }, { "metricName": "Accuracy", "modelResponseId": "1", "result": false } ] } }, "submissionTime": "2024-06-07T22:32:57.918Z", "timeSpentInSeconds": 38.197, "workerId": "bad258db224c3db6", "workerMetadata": { "identityData": { "identityProviderType": "Cognito", "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4", "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094" } } } ], "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e", "inputContent": { "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json", "instructions": "worker instructions provided by the model evaluation job administrator", "evaluationMetrics": [ { "metricName": "Fluency", "metricType": "ComparisonChoice", "description": "Measures the linguistic quality of a generated text." }, { "metricName": "Coherence", "metricType": "ComparisonLikertScale", "description": "Measures the organization and structure of a generated text." }, { "metricName": "Toxicity", "metricType": "ComparisonRank", "description": "Measures the harmfulness of a generated text." }, { "metricName": "Accuracy", "metricType": "ThumbsUpDown", "description": "Indicates the accuracy of a generated text." }, { "metricName": "Correctness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's satisfaction in the context of the question." }, { "metricName": "Completeness", "metricType": "IndividualLikertScale", "description": "Measures a generated answer's inclusion of all relevant information." } ], "disableRandomization": "true" }, "modelResponseIdMap": { "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612", "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } }, "inputRecord": { "prompt": { "text": "What is high intensity interval training?" }, "category": "Fitness", "referenceResponse": { "text": "High-Intensity Interval Training (HIIT)" } }, "modelResponses": [ { "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will", "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612" }, { "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training", "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352" } ] }