Machen Sie sich mit den Ergebnissen einer automatischen Evaluierung vertraut - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Machen Sie sich mit den Ergebnissen einer automatischen Evaluierung vertraut

Wenn der automatische Modellevaluierungsauftrag abgeschlossen ist, werden die Ergebnisse in Amazon S3 gespeichert. In den folgenden Abschnitten werden die generierten Dateien und ihre Interpretation beschrieben.

Interpretation der output.json Dateistruktur

Die output.json Datei enthält aggregierte Ergebnisse für Ihre ausgewählten Datensätze und Metriken.

Im Folgenden finden Sie ein Beispiel für eine Ausgabe

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interpretation der Struktur der instanzbezogenen Ergebnisdatei

Oneevaluation_name_dataset_name.jsonl-Datei, die instanzweise Ergebnisse für jede Jsonlines-Anfrage enthält. Wenn Ihre Jsonlines-Eingabedaten 300 Anfragen enthielten, enthält diese Jsonlines-Ausgabedatei Antworten. 300 Die Ausgabedatei enthält die Anfrage an Ihr Modell, gefolgt von der Punktzahl für diese Bewertung. Es folgt ein Beispiel für eine instanzweite Ausgabe.

Interpretation des Berichts

Ein Bewertungsbericht enthält die Ergebnisse Ihrer Evaluierungsaufgabe für das Stiftungsmodell. Der Inhalt des Bewertungsberichts hängt von der Art der Aufgabe ab, mit der Sie Ihr Modell bewertet haben. Jeder Bericht enthält die folgenden Abschnitte:

  1. Die Gesamtpunktzahl für jede erfolgreiche Bewertung im Rahmen der Bewertungsaufgabe. Als Beispiel für eine Bewertung mit einem Datensatz: Wenn Sie Ihr Modell für eine Klassifikationsaufgabe auf Genauigkeit und semantische Robustheit bewertet haben, wird oben in Ihrem Bericht eine Tabelle mit einer Zusammenfassung der Bewertungsergebnisse für Genauigkeit und Genauigkeit (Semantische Robustheit) angezeigt. Andere Bewertungen mit anderen Datensätzen können anders strukturiert sein.

  2. Die Konfiguration für Ihren Bewertungsjob, einschließlich Modellname, Typ, welcher Bewertungsmethoden verwendet wurden und anhand welcher Datensätze Ihr Modell bewertet wurde.

  3. Ein Abschnitt mit detaillierten Evaluationsergebnissen, in dem der Bewertungsalgorithmus zusammengefasst wird, Informationen und Links zu allen integrierten Datensätzen, zur Berechnung von Punktzahlen sowie Tabellen mit einigen Beispieldaten und den zugehörigen Ergebnissen bereitgestellt werden.

  4. Ein Abschnitt „Fehlgeschlagene Bewertungen“, der eine Liste der Bewertungen enthält, die nicht abgeschlossen wurden. Wenn keine Evaluierungen fehlschlugen, wird dieser Abschnitt des Berichts weggelassen.