Aufgaben zur Modellbewertung Arten von Evaluierungen von Fundamentmodellen Zusammenfassung der Evaluierung des Foundation-Modells

Verwendung von Prompt-Datensätzen und verfügbaren Bewertungsdimensionen in Modellevaluierungsjobs

Die folgenden Abschnitte bieten einen Überblick über die Verwendung automatischer und von Menschen gestützter Modellevaluierungsjobs.

Aufgaben zur Modellbewertung

Bei einer Modellevaluierungsaufgabe handelt es sich bei einer Evaluierungsaufgabe um eine Aufgabe, die das Modell auf der Grundlage der in den Eingabeaufforderungen enthaltenen Informationen ausführen soll.

Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen. In den folgenden Abschnitten erfahren Sie mehr über die einzelnen Aufgabentypen. Jeder Abschnitt enthält auch eine Liste der verfügbaren integrierten Datensätze und der entsprechenden Metriken, die nur für automatische Modellevaluierungsjobs verwendet werden können.

Generierung mit unbegrenztem Ende

Die Generierung von offenem Text ist eine grundlegende Modellaufgabe, bei der Antworten in natürlicher Sprache auf Eingabeaufforderungen generiert werden, die keine vordefinierte Struktur haben, wie z. B. allgemeine Anfragen an einen Chatbot. Bei der Generierung von Text mit offenem Ende kann Foundation Model Evaluations (FMEval) Ihr Modell anhand der folgenden Dimensionen bewerten.

Faktenwissen — Evaluiert, wie gut Ihr Modell Faktenwissen kodiert. FMEvalkann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem basiert TREXOpen-Source-Datensatz.
Semantische Robustheit — Evaluiert, wie stark sich Ihre Modellausgabe als Ergebnis kleiner, semantisch erhaltender Änderungen in der Eingabe ändert. FMEvalmisst, wie sich Ihre Modellausgabe aufgrund von Tippfehlern auf der Tastatur, zufälligen Änderungen an Großbuchstaben und zufälligem Hinzufügen oder Löschen von Leerräumen ändert.
Prompte Stereotypisierung — Misst die Wahrscheinlichkeit, dass Ihr Modell in seiner Antwort Verzerrungen kodiert. Zu diesen Vorurteilen gehören Vorurteile in Bezug auf Rasse, Geschlecht, sexuelle Orientierung, Religion, Alter, Nationalität, Behinderung, körperliches Erscheinungsbild und sozioökonomischen Status. FMEvalkann Ihre Modellantworten anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf CrowS-PairsOpen-Source-Challenge-Datensatz.
Toxizität — Wertet Text anhand von Modellen zur Toxizitätserkennung aus. FMEvalüberprüft Ihr Modell auf sexuelle Hinweise, unhöfliche, unangemessene, hasserfüllte oder aggressive Kommentare, Obszönitäten, Beleidigungen, Flirts, Angriffe auf Identitäten und Bedrohungen. FMEvalkann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder integrierte Datensätze verwenden, die auf RealToxicityPrompts, RealToxicityPromptsChallenging, und BOLDDatensätze.

RealToxicityPromptsChallenging ist eine Teilmenge von RealToxicityPrompts das wird verwendet, um die Grenzen eines großen Sprachmodells zu testen (LLM). Es identifiziert auch Bereiche, in LLMs denen die Gefahr besteht, dass giftige Texte generiert werden.

Sie können Ihr Modell mit den folgenden Toxizitätsdetektoren bewerten:
- UnitaryAI Detoxify-unbiased— Ein Textklassifikator mit mehreren Bezeichnungen, auf dem trainiert wurde Toxic Comment Classification Challenge und Jigsaw Unintended Bias in Toxicity Classification. Das Modell bietet 7 Punktzahlen für die folgenden Klassen: Toxizität, schwere Toxizität, Obszönität, Bedrohung, Beleidigung, sexueller expliziter Angriff und Identitätsangriff.
- Toxigen-roberta— Eine Binärdatei RoBERTabasierter Textklassifikator, der fein abgestimmt ist auf ToxiGen Datensatz. Das Tool ToxiGen Der Datensatz enthält Sätze mit subtiler und impliziter Toxizität in Bezug auf Minderheitengruppen.

Textzusammenfassung

Die Textzusammenfassung wird für Aufgaben wie die Erstellung von Zusammenfassungen von Nachrichten, Rechtsdokumenten, wissenschaftlichen Arbeiten, Inhaltsvorschauen und die Kuratierung von Inhalten verwendet. Folgendes kann die Qualität der Antworten beeinflussen: Mehrdeutigkeit, Kohärenz, Voreingenommenheit, Fließfähigkeit des Textes, der für das Training des Basismodells verwendet wird, sowie Informationsverlust, Genauigkeit, Relevanz oder Kontextinkongruenz. FMEvalkann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes auswerten oder integrierte Datensätze verwenden, die auf dem Government Report Dataset, und GigawordDatensätze. Für die Textzusammenfassung FMEval kann Ihr Modell auf Folgendes geprüft werden:

Genauigkeit — Ein numerischer Wert, der die Ähnlichkeit der Zusammenfassung mit einer Referenzzusammenfassung angibt, die als Goldstandard anerkannt ist. Ein hoher numerischer Wert weist darauf hin, dass die Zusammenfassung von hoher Qualität ist. Ein niedriger numerischer Wert weist auf eine schlechte Zusammenfassung hin. Die folgenden Kennzahlen werden verwendet, um die Genauigkeit einer Zusammenfassung zu bewerten:
- ROUGE-N— Berechnet N-gram Überschneidungen zwischen der Referenz und der Modellzusammenfassung.
- Meteor— Berechnet die Wortüberschneidung zwischen der Referenz- und der Modellzusammenfassung und berücksichtigt dabei auch die Umformulierung.
- BERTScore— Berechnet und vergleicht Satzeinbettungen für die Zusammenfassung und Referenz. FMEvalverwendet die deberta-xlarge-mnli Modelle roberta-large-mnlioder microsoft/, um die Einbettungen zu berechnen.
Toxizität — Werte für generierte Zusammenfassungen, die mit einem Toxizitätsdetektormodell berechnet wurden. Weitere Informationen finden Sie im vorherigen Abschnitt zur Generierung von Aufgaben mit offenem Ende im Abschnitt Toxizität.
Semantische Robustheit — Ein Maß dafür, wie stark sich die Qualität der Textzusammenfassung Ihres Modells aufgrund kleiner, semantischer Änderungen in der Eingabe ändert. Beispiele für diese Änderungen sind Tippfehler, zufällige Änderungen an Großbuchstaben und zufälliges Hinzufügen oder Löschen von Leerräumen. Semantische Robustheit basiert auf dem absoluten Genauigkeitsunterschied zwischen einer ungestörten und einer ungestörten Textzusammenfassung. Der Genauigkeitsalgorithmus verwendet die ROUGE-N, Meteor, und BERTScoreMetriken, wie zuvor in diesem Abschnitt beschrieben.

Beantwortung von Fragen

Die Beantwortung von Fragen wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. FMEvalkann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes auswerten oder integrierte Datensätze verwenden, die auf dem BoolQ, TriviaQA, und Natural QuestionsDatensätze. Zur Beantwortung von Fragen FMEval können Sie Ihr Modell auf Folgendes auswerten:

Genauigkeit — Ein Durchschnittswert, bei dem die generierte Antwort mit den in den Referenzen angegebenen Frage-Antwort-Paaren verglichen wird. Die Punktzahl wird anhand der folgenden Methoden gemittelt:
- Exakte Übereinstimmung — Eine binäre Punktzahl von 1 wird einer exakten Übereinstimmung zugewiesen, und 0 andernfalls.
- Quasi-exakte Übereinstimmung — Eine binäre Punktzahl von 1 wird einer Übereinstimmung zugewiesen, nachdem Interpunktion und grammatikalische Artikel (wie das, ein und) entfernt wurden (Normalisierung).
- F1 über Wörtern — Der F1-Wert oder das harmonische Mittel für Präzision und Erinnerungsvermögen zwischen der normalisierten Antwort und der Referenz. Der F1-Wert entspricht der doppelten Genauigkeit multipliziert mit der Rückrufaktion geteilt durch die Summe aus Präzision (P) und Erinnerung (R) oder F1 = (2*P*R)/(P + R).
  
  In der vorherigen Berechnung ist Genauigkeit definiert als die Anzahl der echten positiven Ergebnisse (TP) geteilt durch die Summe der echten positiven und falsch positiven Ergebnisse (FP) oder P = (TP)/(TP+FP).
  
  Der Rückruf ist definiert als die Anzahl der echten positiven Ergebnisse geteilt durch die Summe der wahren positiven und falsch negativen Ergebnisse (FN) oder R = (TP)/(TP+FN).
  
  Ein höherer Wert von F1 im Vergleich zu Wörtern weist auf qualitativ hochwertigere Antworten hin.
Semantische Robustheit — Ein Maß dafür, wie stark sich die Qualität der Textzusammenfassung Ihres Modells aufgrund kleiner, semantischer Änderungen in der Eingabe ändert. Zu diesen Änderungen gehören beispielsweise Tippfehler auf der Tastatur, die ungenaue Umwandlung von Zahlen in Wörter, zufällige Änderungen an Großbuchstaben und zufälliges Hinzufügen oder Löschen von Leerräumen. Bei der semantischen Robustheit wird der absolute Unterschied in der Genauigkeit zwischen einer ungestörten und einer ungestörten Textzusammenfassung berücksichtigt. Die Genauigkeit wird, wie bereits beschrieben, anhand von Exact-Match, Quasi-Exact Match und F1 im Vergleich zu Wörtern gemessen.
Toxizität — Die Ergebnisse bewerten die generierten Antworten mithilfe eines Toxizitätsdetektormodells. Weitere Informationen finden Sie im vorherigen Abschnitt zur Generierung von Aufgaben mit offenem Ende im Abschnitt Toxizität.

Klassifizierung

Die Klassifizierung wird verwendet, um Text in vordefinierte Kategorien zu kategorisieren. Zu den Anwendungen, die Textklassifizierung verwenden, gehören Inhaltsempfehlungen, Spam-Erkennung, Spracherkennung und Trendanalysen in sozialen Medien. Unausgeglichene, mehrdeutige, verrauschte Daten und Verzerrungen bei der Kennzeichnung sind einige Probleme, die zu Klassifizierungsfehlern führen können. FMEvalbewertet Ihr Modell anhand eines integrierten Datensatzes auf der Grundlage der Women’s ECommerce Clothing ReviewsDatensatz und/oder anhand Ihrer eigenen Prompt-Datensätze für Folgendes.

Genauigkeit — Ein Wert, der die vorhergesagte Klasse mit ihrer Bezeichnung vergleicht. Die Genauigkeit wird anhand der folgenden Metriken gemessen:
- Genauigkeit der Klassifizierung — Ein binärer Wert, der 1 angibt, ob das vorhergesagte Label dem wahren Label entspricht, und 0 andernfalls.
- Präzision — Das Verhältnis von echten positiven Ergebnissen zu allen positiven Ergebnissen, berechnet über den gesamten Datensatz. Präzision ist ein geeignetes Maß, wenn es darauf ankommt, falsch positive Ergebnisse zu reduzieren. Die Punktzahl für jeden Datenpunkt kann anhand der folgenden Werte für den multiclass_average_strategy Parameter aggregiert werden. Jeder Parameter ist im folgenden Beispiel aufgeführt.
- Erinnerung — das Verhältnis von echten positiven Ergebnissen zur Summe von echten positiven und falsch negativen Ergebnissen, berechnet über den gesamten Datensatz. Der Rückruf ist ein geeignetes Maß, wenn es darauf ankommt, falsch negative Ergebnisse zu reduzieren. Die Punktzahlen für jeden Datenpunkt können mithilfe der folgenden Werte für den multiclass_average_strategy Parameter aggregiert werden.
  - micro(Standard) — Die Summe der wahren positiven Ergebnisse geteilt durch die Summe der wahren positiven und falsch negativen Ergebnisse für alle Klassen. Dieser Aggregationstyp gibt ein Maß für die allgemeine Vorhersagegenauigkeit Ihres Modells, wobei alle Klassen gleichermaßen berücksichtigt werden. Mit dieser Aggregation kann beispielsweise die Fähigkeit Ihres Modells bewertet werden, Patienten mit allen Krankheiten, einschließlich seltener Krankheiten, korrekt zu klassifizieren, da alle Klassen gleich gewichtet werden.
  - macro— Die Summe der für jede Klasse berechneten Erinnerungswerte geteilt durch die Anzahl der Klassen. Dieser Aggregationstyp gibt ein Maß für die Vorhersagegenauigkeit Ihres Modells für jede Klasse, wobei jede Klasse gleich gewichtet wird. Mit dieser Aggregation kann beispielsweise die Fähigkeit Ihres Modells bewertet werden, alle Krankheiten vorherzusagen, unabhängig von der Prävalenz oder Seltenheit der einzelnen Erkrankungen.
  - samples(nur Klassifikation mit mehreren Klassen) — Das Verhältnis der Summe der echten positiven Ergebnisse aller Stichproben zur Summe der echten positiven und falsch negativen Ergebnisse für alle Stichproben. Bei der Klassifizierung in mehrere Klassen besteht eine Stichprobe aus einer Reihe von vorhergesagten Antworten für jede Klasse. Dieser Aggregationstyp liefert ein detailliertes Maß für den Erinnerungswert jeder Stichprobe bei Problemen mit mehreren Klassen. Da beispielsweise bei der Aggregation nach Stichproben jede Probe gleich behandelt wird, kann mit dieser Aggregation bewertet werden, ob Ihr Modell in der Lage ist, eine korrekte Diagnose für einen Patienten mit einer seltenen Krankheit vorherzusagen und gleichzeitig falsch negative Ergebnisse zu minimieren.
  - weighted— Das Gewicht für eine Klasse multipliziert mit dem Rückruf für dieselbe Klasse, summiert über alle Klassen. Dieser Aggregationstyp liefert ein Maß für den Gesamtwiederruf und berücksichtigt gleichzeitig die unterschiedliche Bedeutung der einzelnen Klassen. Mit dieser Aggregation kann beispielsweise bewertet werden, ob Ihr Modell in der Lage ist, eine korrekte Diagnose für einen Patienten vorherzusagen und lebensbedrohlichen Krankheiten ein höheres Gewicht beizumessen.
  - binary— Der für die Klasse berechnete Rückruf, die durch den Wert spezifiziert wird. pos_label Dieser Aggregationstyp ignoriert die nicht spezifizierte Klasse und bietet eine allgemeine Vorhersagegenauigkeit für eine einzelne Klasse. Mit dieser Aggregation kann beispielsweise bewertet werden, ob Ihr Modell in der Lage ist, eine Population auf eine bestimmte hochansteckende, lebensbedrohliche Krankheit zu untersuchen.
  - none— Der für jede Klasse berechnete Rückruf. Der klassenspezifische Rückruf kann Ihnen helfen, Klassenungleichgewichte in Ihren Daten zu beheben, wenn die Strafe für Fehler von Klasse zu Klasse sehr unterschiedlich ist. Mit dieser Aggregation kann beispielsweise bewertet werden, wie gut Ihr Modell alle Patienten identifizieren kann, die möglicherweise an einer bestimmten Krankheit leiden.
- Ausgewogene Klassifikationsgenauigkeit (BCA) — 2 Bei der binären Klassifikation wird die Summe aus Erinnerungswert und der tatsächlichen Negativrate dividiert durch. Die wahre Negativrate ist die Anzahl der wahren negativen Werte geteilt durch die Summe der wahren negativen und falsch positiven Werte. Bei der Klassifizierung in mehrere Klassen BCA wird sie als Summe der Erinnerungswerte für jede Klasse geteilt durch die Anzahl der Klassen berechnet. BCAkann helfen, wenn die Strafe für die Vorhersage sowohl falsch positiver als auch falsch negativer Ergebnisse hoch ist. BCAKann beispielsweise beurteilen, wie gut Ihr Modell eine Reihe hochansteckender tödlicher Krankheiten mit invasiven Behandlungen vorhersagen kann.
Semantische Robustheit — Evaluiert, wie stark sich Ihre Modellausgabe aufgrund kleiner, semantischer Änderungen in der Eingabe ändert. FMEvalmisst Ihre Modellausgabe als Ergebnis von Tippfehlern auf der Tastatur, zufälligen Änderungen der Großschreibung und zufälligen Hinzufügungen oder Löschungen von Leerräumen. Semantische Robustheit bewertet den absoluten Unterschied in der Genauigkeit zwischen einer ungestörten und einer ungestörten Textzusammenfassung.

Arten von Evaluierungen von Fundamentmodellen

In den folgenden Abschnitten finden Sie Einzelheiten zu den Evaluierungen Ihres Foundation-Modells sowohl durch Menschen als auch über Algorithmen.

Bewertungen durch Menschen

Um Ihr Modell durch einen Menschen zu bewerten, müssen Sie die Metriken und die zugehörigen Metriktypen definieren. Wenn Sie mehr als ein Modell bewerten möchten, können Sie einen Vergleichs- oder Einzelbewertungsmechanismus verwenden. Wenn Sie ein Modell bewerten möchten, müssen Sie einen individuellen Bewertungsmechanismus verwenden. Die folgenden Bewertungsmechanismen können auf jede textbezogene Aufgabe angewendet werden:

(Vergleichende) Likert-Skala — Vergleich — Ein menschlicher Prüfer gibt auf einer 5-Punkte-Likert-Skala gemäß Ihren Anweisungen seine Präferenz zwischen zwei Antworten an. Im Abschlussbericht werden die Ergebnisse als Histogramm mit Bewertungen nach Präferenzstärke im Vergleich zum gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Gutachter wissen, wie sie die Antworten entsprechend Ihren Erwartungen bewerten können.
Auswahlschaltflächen (zum Vergleich) — Ermöglicht es einem menschlichen Prüfer, anhand von Optionsfeldern gemäß Ihren Anweisungen eine bevorzugte Antwort einer anderen Antwort vorzuziehen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Antworten ausgewiesen, die die Mitarbeiter für jedes Modell bevorzugt haben. Erläutern Sie Ihre Bewertungsmethode in der Anleitung klar und deutlich.
(Vergleichende) Ordinalrangfolge — Ermöglicht es einem menschlichen Prüfer, seine bevorzugten Antworten auf eine Aufforderung in der Reihenfolge, beginnend bei 1, und gemäß Ihren Anweisungen einzuordnen. Im Abschlussbericht werden die Ergebnisse als Histogramm der Ranglisten der Gutachter im gesamten Datensatz angezeigt. Stellen Sie sicher, dass Sie in Ihren Anweisungen definieren, was ein Rang von 1 bedeutet.
(Individuell) Daumen hoch/runter — Ermöglicht es einem menschlichen Prüfer, jede Antwort eines Modells gemäß Ihren Anweisungen als akzeptabel oder inakzeptabel zu bewerten. Im Abschlussbericht zeigen die Ergebnisse einen prozentualen Anteil an der Gesamtzahl der Bewertungen von Bewertern, die für jedes Modell eine positive Bewertung erhalten haben. Sie können diese Bewertungsmethode verwenden, um ein oder mehrere Modelle zu bewerten. Wenn Sie diese Methode in einer Bewertung verwenden, die zwei Modelle umfasst, bietet die Benutzeroberfläche Ihrem Arbeitsteam für jede Modellantwort die Option „Daumen hoch“ oder „Daumen runter“. Im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln angezeigt. Definieren Sie in Ihren Anweisungen an Ihr Arbeitsteam, was eine akzeptable Antwort ist.
(Individuelle) Likert-Skala — individuell — Ermöglicht es einem menschlichen Gutachter, auf der Grundlage Ihrer Anweisungen auf einer 5-Punkte-Likert-Skala anzugeben, wie sehr er die Antwort des Modells befürwortet. Im Abschlussbericht wird in den Ergebnissen ein Histogramm mit den 5-Punkte-Bewertungen der Gutachter für Ihren gesamten Datensatz angezeigt. Sie können diese Bewertungsmethode für eine Bewertung verwenden, die ein oder mehrere Modelle umfasst. Wenn Sie diese Bewertungsmethode in einer Bewertung wählen, die mehr als ein Modell umfasst, wird Ihrem Arbeitsteam für jede Modellantwort eine 5-Punkte-Likert-Skala vorgelegt. Im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte auf der 5-Punkte-Skala, damit Ihre Gutachter wissen, wie sie die Antworten entsprechend Ihren Erwartungen bewerten können.

Automatische Bewertungen

Automatische Bewertungen können integrierte Datensätze und Algorithmen nutzen, oder Sie können Ihren eigenen Datensatz mit Eingabeaufforderungen verwenden, die für Ihren Anwendungsfall spezifisch sind. Die integrierten Datensätze variieren je nach Aufgabe und sind in den folgenden Abschnitten aufgeführt. Eine Zusammenfassung der Aufgaben und der zugehörigen Metriken und Datensätze finden Sie in der Tabelle im folgenden Abschnitt zur Bewertung des Foundation-Modells.

Zusammenfassung der Evaluierung des Foundation-Modells

In der folgenden Tabelle sind alle Bewertungsaufgaben, Kennzahlen und integrierten Datensätze für Evaluierungen sowohl für menschliche als auch für automatische Evaluierungen zusammengefasst.

Aufgabe	Bewertungen durch Menschen	Menschliche Kennzahlen	Automatische Bewertungen	Automatische Metriken	Automatische integrierte Datensätze
Generierung mit offenem Ende	Sprachkompetenz, Kohärenz, Toxizität, Genauigkeit, Konsistenz, Relevanz, Benutzerdefiniert	Präferenzrate, Präferenzstärke, Präferenzrang, Zustimmungsrate, Zustimmungsstärke	Faktenwissen		TREX
			Semantische Robustheit		TREX
					BOLD
					WikiText
			Prompte Stereotypisierung		CrowS-Pairs
			Toxizität		RealToxicityPrompts
					BOLD
Textzusammenfassung			Accuracy	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
Beantwortung von Fragen			Accuracy	Genaue Übereinstimmung	BoolQ
				Quasi exakte Übereinstimmung	NaturalQuestions
				F1 über Worte	TriviaQA
			Semantische Robustheit		BoolQ
					NaturalQuestions
					TriviaQA
			Toxizität		BoolQ
					NaturalQuestions
					TriviaQA
Textklassifizierung			Accuracy	Genauigkeit der Klassifizierung	Women's Ecommerce Clothing Reviews
				Genauigkeit	Women's Ecommerce Clothing Reviews
				Wiedererkennung	Women's Ecommerce Clothing Reviews
				Ausgewogene Klassifizierungsgenauigkeit	Women's Ecommerce Clothing Reviews
			Semantische Robustheit		Women's Ecommerce Clothing Reviews

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte

Accuracy