Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Accuracy
Bei dieser Bewertung wird gemessen, wie genau ein Modell bei einer Aufgabe abschneidet, indem die Modellausgabe mit der im Datensatz enthaltenen Ground-Truth-Antwort verglichen wird.
Amazon SageMaker AI unterstützt die Durchführung einer Genauigkeitsbewertung von Amazon SageMaker Studio aus oder mithilfe der fmeval
Bibliothek.
-
Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardwerte, um die Modellleistung schnell zu bewerten.
-
Ausführen von Evaluierungen mithilfe der
fmeval
Bibliothek: Evaluierungsjobs, die mit derfmeval
Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.
Unterstützter Aufgabentyp
Die Genauigkeitsbewertung wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Die integrierten Datensätze enthalten eine Ground-Truth-Komponente, mit der die Genauigkeit gemessen wird. Benutzer können auch ihre eigenen Datensätze mitbringen. Informationen zur Aufnahme der Ground-Truth-Komponente in Ihren Datensatz finden Sie unterAutomatische Modellauswertung.
Standardmäßig wählt SageMaker KI 100 zufällige Eingabeaufforderungen aus dem Datensatz aus, um die Genauigkeit zu bewerten. Bei Verwendung der fmeval
Bibliothek kann dies angepasst werden, indem der num_records
Parameter an die evaluate
Methode übergeben wird. Hinweise zur Anpassung der Bewertung von Faktenwissen mithilfe der fmeval
Bibliothek finden Sie unter. Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an
Aufgabentyp | Integrierte Datensätze | Hinweise |
---|---|---|
Textzusammenfassung | Gigaword |
Die integrierten Datensätze sind nur in englischer Sprache verfügbar, einige Metriken sind jedoch sprachunabhängig. Sie können Datensätze in jeder Sprache einfügen. |
Beantwortung von Fragen | BoolQ |
Die integrierten Datensätze sind nur in englischer Sprache verfügbar, aber einige Metriken sind sprachunabhängig. Sie können Datensätze in jeder Sprache einfügen. |
Klassifizierung | Bewertungen von E-Commerce-Bekleidung für Damen |
Berechnete Werte
Die zur Bewertung der Genauigkeit gemessenen Werte ändern sich je nach Aufgabentyp. Hinweise zur Struktur der Eingabeaufforderungen, die für die Auswertung erforderlich ist, finden Sie unterErstellen Sie einen automatischen Modellevaluierungsjob in Studio.
Zusammenfassung
Bei Zusammenfassungsaufgaben misst die Genauigkeitsbewertung, wie genau ein Modell Text zusammenfassen kann. Bei dieser Bewertung wird das Modell standardmäßig anhand von zwei integrierten Datensätzen verglichen, die Paare von Eingabetext- und Ground-Truth-Antworten enthalten. Die vom Modell generierten Zusammenfassungen werden dann mit den Ground-Truth-Antworten verglichen, wobei drei integrierte Metriken verwendet werden, mit denen gemessen wird, wie ähnlich die Zusammenfassungen auf unterschiedliche Weise sind. Alle diese Werte werden über den gesamten Datensatz gemittelt.
-
ROUGE-Score: ROUGE-Scores sind eine Klasse von Metriken, die überlappende Worteinheiten (N-Gramm) zwischen der vom Modell generierten Zusammenfassung und der Ground-Truth-Zusammenfassung berechnen, um die Qualität der Zusammenfassung zu messen. Bei der Auswertung eines ROUGE-Scores deuten höhere Werte darauf hin, dass das Modell in der Lage war, eine bessere Zusammenfassung zu erstellen.
-
Die Werte reichen von
0
(keine Übereinstimmung) bis1
(perfekte Übereinstimmung). -
Bei den Metriken wird nicht zwischen Groß- und Kleinschreibung unterschieden.
-
Einschränkung: Kann bei abstrakten Zusammenfassungsaufgaben unzuverlässig sein, da die Punktzahl von exakten Wortüberschneidungen abhängt.
-
Beispiel für die Berechnung eines ROUGE-Bigramms
-
Zusammenfassung der Fakten: „Der Hund hat im Park Apportiere mit dem Ball gespielt.“
-
Generierte Zusammenfassung: „Der Hund hat mit dem Ball gespielt.“
-
ROUGE-2: Zähle die Anzahl der Bigramme (zwei benachbarte Wörter in einem Satz), die die Referenz und der Kandidat gemeinsam haben. Es gibt 4 gebräuchliche Bigramme („der Hund“, „Der Hund hat gespielt“, „mit dem“, „der Ball“).
-
Dividiere durch die Gesamtzahl der Bigramme in der Ground-Truth-Zusammenfassung: 9
-
ROUGE-2 = 4/9 = 0.444
-
-
ROUGE-Score-Standardwerte für automatische Modellevaluierungsaufträge
Wenn Sie mit Studio einen Job zur automatischen Modellevaluierung erstellen, verwendet SageMaker KI
N=2
für die Berechnung des ROUGE-Scores die N-Gramme. Daher verwendet der Modellevaluierungsjob Bigramme für den Abgleich. Studio-Jobs verwenden außerdem Porter Stemmer, um Wortsuffixe aus allen Eingabeaufforderungen zu entfernen. Die Zeichenfolge raining
wird beispielsweise auf gekürzt.rain
-
ROUGE-Score-Optionen sind in der
fmeval
Bibliothek verfügbarMithilfe der
fmeval
Bibliothek können Sie mithilfe desSummarizationAccuracyConfig
Parameters konfigurieren, wie der ROUGE-Score berechnet wird. Die folgenden Optionen werden unterstützt:-
rouge_type
: die Länge der N-Gramme, die abgeglichen werden sollen. Die drei unterstützten Werte sind:-
ROUGE_1
entspricht einzelnen Wörtern (Unigrammen) -
ROUGE_2
entspricht Wortpaaren (Bigrammen). Dies ist der Standardwert. -
ROUGE_L
entspricht der längsten gemeinsamen Teilsequenz. Bei der Berechnung der längsten gemeinsamen Teilfolge wird die Reihenfolge der Wörter berücksichtigt, die Konsekutivität jedoch nicht-
Zum Beispiel:
-
Zusammenfassung des Modells = 'Es ist Herbst'
-
reference = 'Es ist wieder Herbst'
-
Longest common subsequence(prediction, reference)=3
.
-
-
-
-
use_stemmer_for_rouge
: WennTrue
(Standard), verwendet Porter Stemmer, um Wortsuffixe zu entfernen. -
Beispiel: „Regen“ wird zu „Regen“ gekürzt.
-
-
-
-
Metrik zur Bewertung von Übersetzungen mit explizitem Wert ORdering (METEOR): METEOR ähnelt ROUGE-1, beinhaltet aber auch Wortstammbildung und Synonymabgleich. Im Vergleich zu ROUGE, das sich auf den einfachen Abgleich von N-Grammen beschränkt, bietet es einen ganzheitlicheren Überblick über die Qualität der Zusammenfassung. Höhere METEOR-Werte deuten in der Regel auf eine höhere Genauigkeit hin.
-
Einschränkung: Kann bei abstrakten Zusammenfassungsaufgaben unzuverlässig sein, da die Punktzahl auf der Überschneidung von exakten Wörtern und Synonymen beruht.
-
-
BERTScore: BERTScore verwendet ein zusätzliches ML-Modell aus der BERT-Familie, um Satzeinbettungen zu berechnen und ihre Kosinusähnlichkeit zu vergleichen. Dieser Wert soll für mehr sprachliche Flexibilität als ROUGE und METEOR sorgen, da semantisch ähnliche Sätze näher beieinander eingebettet werden können.
-
Einschränkungen:
-
Erbt die Einschränkungen des Modells, das für den Vergleich von Passagen verwendet wird.
-
Kann für kurze Textvergleiche unzuverlässig sein, wenn ein einzelnes, wichtiges Wort geändert wird.
-
-
BERTScoreStandardwerte für automatische Modellevaluierungsaufträge in Studio
Wenn Sie mit Studio einen Auftrag zur automatischen Modellevaluierung erstellen, verwendet SageMaker KI das
deberta-xlarge-mnli
Modell zur Berechnung der BERTScore. -
BERTScore Optionen, die in der
fmeval
Bibliothek verfügbar sindMithilfe der
fmeval
Bibliothek können Sie mithilfe desSummarizationAccuracyConfig
Parameters konfigurieren, wie der berechnet BERTScore wird. Die folgenden Optionen werden unterstützt:-
model_type_for_bertscore
: Name des Modells, das für die Bewertung verwendet werden soll. BERTScore unterstützt derzeit nur die folgenden Modelle:-
"microsoft/deberta-xlarge-mnli
(Standard)"
-
-
-
Beantwortung von Fragen
Bei der Genauigkeitsbewertung wird bei der Genauigkeitsbewertung die Leistung eines Modells bei der Beantwortung von Fragen (QA) gemessen, indem die generierten Antworten auf unterschiedliche Weise mit den gegebenen Ground-Truth-Antworten verglichen werden. Alle diese Werte werden über den gesamten Datensatz gemittelt.
Anmerkung
Diese Kennzahlen werden berechnet, indem generierte Antworten und Ground-Truth-Antworten auf exakte Übereinstimmungen verglichen werden. Daher sind sie bei Fragen, bei denen die Antwort umformuliert werden kann, ohne ihre Bedeutung zu ändern, möglicherweise weniger zuverlässig.
-
Punktezahl „Präzision vor Wörtern“: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor der Berechnung der Genauigkeit werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Die Genauigkeit kann in jeder Sprache bewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.-
precision = true positives / (true positives + false positives)
-
true positives
: Die Anzahl der Wörter in der Modellausgabe, die auch in der Ground Truth enthalten sind. -
false positives
: Die Anzahl der Wörter in der Modellausgabe, die nicht in der Ground Truth enthalten sind.
-
-
-
Punktezahl beim Abrufen von Wörtern: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor dem Abrufen der Berechnungen werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Da bei der Rückrufaktion nur geprüft wird, ob die Antwort die Grundwahrheit enthält, und die Ausführlichkeit nicht benachteiligt wird, empfehlen wir die Verwendung von Recall für ausführliche Modelle. Der Rückruf kann in jeder Sprache ausgewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.-
recall = true positives / (true positives + false negatives)
-
true positives
: Die Anzahl der Wörter in der Modellausgabe, die auch in der Ground Truth enthalten sind. -
false negatives
: Die Anzahl der Wörter, die in der Modellausgabe fehlen, aber in der Ground Truth enthalten sind.
-
-
-
F1-Punktzahl für mehr Wörter: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt. F1 ist das harmonische Mittel für Präzision und Erinnerungsvermögen. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor der Berechnung von F1 werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Die Formel 1 vor Wörtern kann in jeder Sprache ausgewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.-
F1 = 2*((precision * recall)/(precision + recall))
-
precision
: Die Genauigkeit wird auf die gleiche Weise berechnet wie die Genauigkeitsbewertung. -
recall
: Der Rückruf wird auf die gleiche Weise berechnet wie der Rückrufwert.
-
-
-
Exact Match (EM) -Score: Binärer Wert, der angibt, ob die Modellausgabe exakt mit der Ground-Truth-Antwort übereinstimmt. Exakte Übereinstimmung kann in jeder Sprache bewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.
-
0
: Keine exakte Übereinstimmung. -
1
: Exakte Übereinstimmung. -
Beispiel:
-
Frage:
“
where is the world's largest ice sheet located today?”
-
Grundwahrheit: „Antarktis“
-
Generierte Antwort: „in der Antarktis“
-
Ergebnis: 0
-
-
Generierte Antwort: „Antarktis“
-
Ergebnis: 1
-
-
-
-
Quasi Exact Match Score: Binärer Wert, der ähnlich wie der EM-Score berechnet wird, aber die Modellausgabe und die Ground-Truth-Werte werden vor dem Vergleich normalisiert. Bei beiden wird die Ausgabe normalisiert, indem sie in Kleinbuchstaben umgewandelt und anschließend Artikel, Satzzeichen und überschüssiger Leerraum entfernt werden.
-
0
: Keine quasi exakte Übereinstimmung. -
1
: Quasi exakte Übereinstimmung. -
Beispiel:
-
Frage:
“
where is the world's largest ice sheet located today?”
-
Grundwahrheit: „Antarktis“
-
Generierte Antwort: „in Südamerika“
-
Ergebnis: 0
-
-
Generierte Antwort: „in der Antarktis“
-
Ergebnis: 1
-
-
-
Klassifizierung
Bei Klassifizierungsaufgaben wird bei der Genauigkeitsbewertung die vorhergesagte Eingabeklasse mit der jeweiligen Kennzeichnung verglichen. Alle diese Werte werden einzeln über den gesamten Datensatz gemittelt.
-
Genauigkeitsbewertung: Binärer Wert, der angibt, ob das vom Modell vorhergesagte Label exakt mit dem angegebenen Label der Eingabe übereinstimmt.
-
0
: Keine exakte Übereinstimmung. -
1
: Exakte Übereinstimmung.
-
-
Präzisionswert: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt.-
precision = true positives / (true positives + false positives)
-
true positives
: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe vorhergesagt hat. -
false positives
: Die Anzahl der Eingaben, bei denen das Modell ein Label vorhergesagt hat, das nicht mit dem angegebenen Label für die jeweilige Eingabe übereinstimmt.
-
-
Standardwerte für den Präzisionswert bei Aufträgen zur automatischen Modellevaluierung von Studio
Wenn Sie mit Studio einen automatischen Modellevaluierungsjob erstellen, berechnet SageMaker KI die Genauigkeit global für alle Klassen, indem die Gesamtzahl der echten positiven, falschen negativen und falschen positiven Ergebnisse gezählt wird.
-
Optionen für die Präzisionsbewertung sind in der Bibliothek verfügbar
fmeval
Mithilfe der
fmeval
Bibliothek können Sie mithilfe desClassificationAccuracyConfig
Parameters konfigurieren, wie der Präzisionswert berechnet wird. Die folgenden Optionen werden unterstützt:-
multiclass_average_strategy
bestimmt, wie die Punktzahlen in der Einstellung für die Mehrklassenklassifizierung klassenübergreifend aggregiert werden. Die möglichen Werte sind{'micro', 'macro', 'samples', 'weighted', 'binary'}
oderNone
('micro'
Standard=). Im Standardfall 'wird die Genauigkeit global für alle Klassen berechnetmicro'
, indem die Gesamtzahl wahr positiver, falsch negativer und falsch positiver Ergebnisse gezählt wird. Alle anderen Optionen finden Sie unter sklearn.metrics.precision_score. Anmerkung
Für die binäre Klassifizierung empfehlen wir die Verwendung der
'binary'
Mittelungsstrategie, die der klassischen Definition von Präzision entspricht.
-
-
-
Erinnerungswert: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt.-
recall = true positives / (true positives + false negatives)
-
true positives
: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe vorhergesagt hat. -
false negatives
: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe nicht vorhersagen konnte.
-
-
Rufen Sie die Standardwerte für die Punktzahl bei automatischen Modellevaluierungsaufträgen von Studio ab
Wenn Sie mit Studio einen Job zur automatischen Modellevaluierung erstellen, berechnet SageMaker KI den Rückruf global für alle Klassen, indem die Gesamtzahl der echten positiven, falsch negativen und falsch positiven Ergebnisse gezählt wird.
-
In der Bibliothek sind Optionen zum Abrufen von Punktzahlen verfügbar
fmeval
Mithilfe der
fmeval
Bibliothek können Sie anhand desClassificationAccuracyConfig
Parameters konfigurieren, wie der Recall-Score berechnet wird. Die folgenden Optionen werden unterstützt:-
multiclass_average_strategy
bestimmt, wie die Punktzahlen in der Einstellung für die Klassifizierung mehrerer Klassen aggregiert werden. Die möglichen Werte sind{'micro', 'macro', 'samples', 'weighted', 'binary'}
oderNone
('micro'
Standard=). Im Standardfall 'wird der Rückruf global für alle Klassen berechnetmicro'
, indem die Gesamtzahl der wahren positiven, falsch negativen und falsch positiven Ergebnisse gezählt wird. Alle anderen Optionen finden Sie unter sklearn.metrics.precision_score. Anmerkung
Für die binäre Klassifikation empfehlen wir die Verwendung der
'binary'
Mittelwertbildung, die der klassischen Definition von Recall entspricht.
-
-
-
Ausgewogene Klassifikationsgenauigkeit: Numerischer Wert, der zwischen
0
(schlechtesten) und1
(besten) liegt.-
Für die binäre Klassifizierung: Dieser Wert wird genauso berechnet wie die Genauigkeit.
-
Für die Klassifizierung in mehreren Klassen: Bei diesem Wert wird der Durchschnitt der individuellen Erinnerungswerte für alle Klassen ermittelt.
-
Für die folgenden Beispielausgaben:
Text überprüfen Ground Truth Label Class name Vorhergesagtes Label Köstlicher Kuchen! Würde wieder kaufen. 3 Brownie 3 Leckerer Kuchen! R empfohlen. 2 1 Pfund Kuchen 2 Furchtbar! Ekelhafter Kuchen. 1 Pfundkuchen 2 -
Rückruf der Klasse 1: 0
-
Rückruf der Klasse 2: 1
-
Rückruf der Klasse 3: 1
-
Ausgewogene Klassifizierungsgenauigkeit: (0+1+1) /3=0,66
-
-
-