Accuracy - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Accuracy

Bei dieser Bewertung wird gemessen, wie genau ein Modell bei einer Aufgabe abschneidet, indem die Modellausgabe mit der im Datensatz enthaltenen Ground-Truth-Antwort verglichen wird.

Amazon SageMaker AI unterstützt die Durchführung einer Genauigkeitsbewertung von Amazon SageMaker Studio aus oder mithilfe der fmeval Bibliothek.

  • Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardwerte, um die Modellleistung schnell zu bewerten.

  • Ausführen von Evaluierungen mithilfe der fmeval Bibliothek: Evaluierungsjobs, die mit der fmeval Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.

Unterstützter Aufgabentyp

Die Genauigkeitsbewertung wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Die integrierten Datensätze enthalten eine Ground-Truth-Komponente, mit der die Genauigkeit gemessen wird. Benutzer können auch ihre eigenen Datensätze mitbringen. Informationen zur Aufnahme der Ground-Truth-Komponente in Ihren Datensatz finden Sie unterAutomatische Modellauswertung.

Standardmäßig wählt SageMaker KI 100 zufällige Eingabeaufforderungen aus dem Datensatz aus, um die Genauigkeit zu bewerten. Bei Verwendung der fmeval Bibliothek kann dies angepasst werden, indem der num_records Parameter an die evaluate Methode übergeben wird. Hinweise zur Anpassung der Bewertung von Faktenwissen mithilfe der fmeval Bibliothek finden Sie unter. Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an

Aufgabentyp Integrierte Datensätze Hinweise
Textzusammenfassung Gigaword, Datensatz für Regierungsberichte Die integrierten Datensätze sind nur in englischer Sprache verfügbar, einige Metriken sind jedoch sprachunabhängig. Sie können Datensätze in jeder Sprache einfügen.
Beantwortung von Fragen BoolQ, Wissenswertes NaturalQuestions Die integrierten Datensätze sind nur in englischer Sprache verfügbar, aber einige Metriken sind sprachunabhängig. Sie können Datensätze in jeder Sprache einfügen.
Klassifizierung Bewertungen von E-Commerce-Bekleidung für Damen

Berechnete Werte

Die zur Bewertung der Genauigkeit gemessenen Werte ändern sich je nach Aufgabentyp. Hinweise zur Struktur der Eingabeaufforderungen, die für die Auswertung erforderlich ist, finden Sie unterErstellen Sie einen automatischen Modellevaluierungsjob in Studio.

Zusammenfassung

Bei Zusammenfassungsaufgaben misst die Genauigkeitsbewertung, wie genau ein Modell Text zusammenfassen kann. Bei dieser Bewertung wird das Modell standardmäßig anhand von zwei integrierten Datensätzen verglichen, die Paare von Eingabetext- und Ground-Truth-Antworten enthalten. Die vom Modell generierten Zusammenfassungen werden dann mit den Ground-Truth-Antworten verglichen, wobei drei integrierte Metriken verwendet werden, mit denen gemessen wird, wie ähnlich die Zusammenfassungen auf unterschiedliche Weise sind. Alle diese Werte werden über den gesamten Datensatz gemittelt.

  • ROUGE-Score: ROUGE-Scores sind eine Klasse von Metriken, die überlappende Worteinheiten (N-Gramm) zwischen der vom Modell generierten Zusammenfassung und der Ground-Truth-Zusammenfassung berechnen, um die Qualität der Zusammenfassung zu messen. Bei der Auswertung eines ROUGE-Scores deuten höhere Werte darauf hin, dass das Modell in der Lage war, eine bessere Zusammenfassung zu erstellen.

    • Die Werte reichen von 0 (keine Übereinstimmung) bis 1 (perfekte Übereinstimmung).

    • Bei den Metriken wird nicht zwischen Groß- und Kleinschreibung unterschieden.

    • Einschränkung: Kann bei abstrakten Zusammenfassungsaufgaben unzuverlässig sein, da die Punktzahl von exakten Wortüberschneidungen abhängt.

    • Beispiel für die Berechnung eines ROUGE-Bigramms

      • Zusammenfassung der Fakten: „Der Hund hat im Park Apportiere mit dem Ball gespielt.“

      • Generierte Zusammenfassung: „Der Hund hat mit dem Ball gespielt.“

      • ROUGE-2: Zähle die Anzahl der Bigramme (zwei benachbarte Wörter in einem Satz), die die Referenz und der Kandidat gemeinsam haben. Es gibt 4 gebräuchliche Bigramme („der Hund“, „Der Hund hat gespielt“, „mit dem“, „der Ball“).

      • Dividiere durch die Gesamtzahl der Bigramme in der Ground-Truth-Zusammenfassung: 9

      • ROUGE-2 = 4/9 = 0.444

    • ROUGE-Score-Standardwerte für automatische Modellevaluierungsaufträge

      Wenn Sie mit Studio einen Job zur automatischen Modellevaluierung erstellen, verwendet SageMaker KI N=2 für die Berechnung des ROUGE-Scores die N-Gramme. Daher verwendet der Modellevaluierungsjob Bigramme für den Abgleich. Studio-Jobs verwenden außerdem Porter Stemmer, um Wortsuffixe aus allen Eingabeaufforderungen zu entfernen. Die Zeichenfolge raining wird beispielsweise auf gekürzt. rain

    • ROUGE-Score-Optionen sind in der fmeval Bibliothek verfügbar

      Mithilfe der fmeval Bibliothek können Sie mithilfe des SummarizationAccuracyConfig Parameters konfigurieren, wie der ROUGE-Score berechnet wird. Die folgenden Optionen werden unterstützt: 

      • rouge_type: die Länge der N-Gramme, die abgeglichen werden sollen. Die drei unterstützten Werte sind:

        •  ROUGE_1entspricht einzelnen Wörtern (Unigrammen)

        •  ROUGE_2entspricht Wortpaaren (Bigrammen). Dies ist der Standardwert.

        •  ROUGE_Lentspricht der längsten gemeinsamen Teilsequenz.  Bei der Berechnung der längsten gemeinsamen Teilfolge wird die Reihenfolge der Wörter berücksichtigt, die Konsekutivität jedoch nicht

          • Zum Beispiel:

            • Zusammenfassung des Modells = 'Es ist Herbst'

            • reference = 'Es ist wieder Herbst'

            • Longest common subsequence(prediction, reference)=3

      • use_stemmer_for_rouge: Wenn True (Standard), verwendet Porter Stemmer, um Wortsuffixe zu entfernen

        • Beispiel: „Regen“ wird zu „Regen“ gekürzt.

  • Metrik zur Bewertung von Übersetzungen mit explizitem Wert ORdering (METEOR): METEOR ähnelt ROUGE-1, beinhaltet aber auch Wortstammbildung und Synonymabgleich. Im Vergleich zu ROUGE, das sich auf den einfachen Abgleich von N-Grammen beschränkt, bietet es einen ganzheitlicheren Überblick über die Qualität der Zusammenfassung. Höhere METEOR-Werte deuten in der Regel auf eine höhere Genauigkeit hin.

    • Einschränkung: Kann bei abstrakten Zusammenfassungsaufgaben unzuverlässig sein, da die Punktzahl auf der Überschneidung von exakten Wörtern und Synonymen beruht.

  • BERTScore: BERTScore verwendet ein zusätzliches ML-Modell aus der BERT-Familie, um Satzeinbettungen zu berechnen und ihre Kosinusähnlichkeit zu vergleichen. Dieser Wert soll für mehr sprachliche Flexibilität als ROUGE und METEOR sorgen, da semantisch ähnliche Sätze näher beieinander eingebettet werden können.

    • Einschränkungen:

      • Erbt die Einschränkungen des Modells, das für den Vergleich von Passagen verwendet wird.

      • Kann für kurze Textvergleiche unzuverlässig sein, wenn ein einzelnes, wichtiges Wort geändert wird.

    • BERTScoreStandardwerte für automatische Modellevaluierungsaufträge in Studio

      Wenn Sie mit Studio einen Auftrag zur automatischen Modellevaluierung erstellen, verwendet SageMaker KI das deberta-xlarge-mnli Modell zur Berechnung der BERTScore.

    • BERTScore Optionen, die in der fmeval Bibliothek verfügbar sind

      Mithilfe der fmeval Bibliothek können Sie mithilfe des SummarizationAccuracyConfig Parameters konfigurieren, wie der berechnet BERTScore wird. Die folgenden Optionen werden unterstützt:

Beantwortung von Fragen

Bei der Genauigkeitsbewertung wird bei der Genauigkeitsbewertung die Leistung eines Modells bei der Beantwortung von Fragen (QA) gemessen, indem die generierten Antworten auf unterschiedliche Weise mit den gegebenen Ground-Truth-Antworten verglichen werden. Alle diese Werte werden über den gesamten Datensatz gemittelt.

Anmerkung

Diese Kennzahlen werden berechnet, indem generierte Antworten und Ground-Truth-Antworten auf exakte Übereinstimmungen verglichen werden. Daher sind sie bei Fragen, bei denen die Antwort umformuliert werden kann, ohne ihre Bedeutung zu ändern, möglicherweise weniger zuverlässig.

  • Punktezahl „Präzision vor Wörtern“: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor der Berechnung der Genauigkeit werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Die Genauigkeit kann in jeder Sprache bewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.

    • precision = true positives / (true positives + false positives)

      • true positives: Die Anzahl der Wörter in der Modellausgabe, die auch in der Ground Truth enthalten sind.

      • false positives: Die Anzahl der Wörter in der Modellausgabe, die nicht in der Ground Truth enthalten sind.

  • Punktezahl beim Abrufen von Wörtern: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor dem Abrufen der Berechnungen werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Da bei der Rückrufaktion nur geprüft wird, ob die Antwort die Grundwahrheit enthält, und die Ausführlichkeit nicht benachteiligt wird, empfehlen wir die Verwendung von Recall für ausführliche Modelle. Der Rückruf kann in jeder Sprache ausgewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.

    • recall = true positives / (true positives + false negatives)

      • true positives: Die Anzahl der Wörter in der Modellausgabe, die auch in der Ground Truth enthalten sind.

      • false negatives: Die Anzahl der Wörter, die in der Modellausgabe fehlen, aber in der Ground Truth enthalten sind.

  • F1-Punktzahl für mehr Wörter: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt. F1 ist das harmonische Mittel für Präzision und Erinnerungsvermögen. Um diesen Wert zu berechnen, werden Modellausgabe und Ground Truth vor dem Vergleich normalisiert. Vor der Berechnung von F1 werden bei dieser Auswertung alle Zeilenumbrüche entfernt, um ausführliche Antworten mit mehreren unterschiedlichen Absätzen zu berücksichtigen. Die Formel 1 vor Wörtern kann in jeder Sprache ausgewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.

    • F1 = 2*((precision * recall)/(precision + recall))

      • precision: Die Genauigkeit wird auf die gleiche Weise berechnet wie die Genauigkeitsbewertung.

      • recall: Der Rückruf wird auf die gleiche Weise berechnet wie der Rückrufwert.

  • Exact Match (EM) -Score: Binärer Wert, der angibt, ob die Modellausgabe exakt mit der Ground-Truth-Antwort übereinstimmt. Exakte Übereinstimmung kann in jeder Sprache bewertet werden, wenn Sie Ihren eigenen Datensatz hochladen.

    • 0: Keine exakte Übereinstimmung.

    • 1: Exakte Übereinstimmung.

    • Beispiel:

      • Frage: where is the world's largest ice sheet located today?”

      • Grundwahrheit: „Antarktis“

      • Generierte Antwort: „in der Antarktis“

        • Ergebnis: 0

      • Generierte Antwort: „Antarktis“

        • Ergebnis: 1

  • Quasi Exact Match Score: Binärer Wert, der ähnlich wie der EM-Score berechnet wird, aber die Modellausgabe und die Ground-Truth-Werte werden vor dem Vergleich normalisiert. Bei beiden wird die Ausgabe normalisiert, indem sie in Kleinbuchstaben umgewandelt und anschließend Artikel, Satzzeichen und überschüssiger Leerraum entfernt werden.

    • 0: Keine quasi exakte Übereinstimmung.

    • 1: Quasi exakte Übereinstimmung.

    • Beispiel:

      • Frage: where is the world's largest ice sheet located today?”

      • Grundwahrheit: „Antarktis“

      • Generierte Antwort: „in Südamerika“

        • Ergebnis: 0

      • Generierte Antwort: „in der Antarktis“

        • Ergebnis: 1

Klassifizierung

Bei Klassifizierungsaufgaben wird bei der Genauigkeitsbewertung die vorhergesagte Eingabeklasse mit der jeweiligen Kennzeichnung verglichen. Alle diese Werte werden einzeln über den gesamten Datensatz gemittelt.

  • Genauigkeitsbewertung: Binärer Wert, der angibt, ob das vom Modell vorhergesagte Label exakt mit dem angegebenen Label der Eingabe übereinstimmt.

    • 0: Keine exakte Übereinstimmung.

    • 1: Exakte Übereinstimmung.

  • Präzisionswert: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt.

    • precision = true positives / (true positives + false positives)

      • true positives: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe vorhergesagt hat.

      • false positives: Die Anzahl der Eingaben, bei denen das Modell ein Label vorhergesagt hat, das nicht mit dem angegebenen Label für die jeweilige Eingabe übereinstimmt.

    • Standardwerte für den Präzisionswert bei Aufträgen zur automatischen Modellevaluierung von Studio

      Wenn Sie mit Studio einen automatischen Modellevaluierungsjob erstellen, berechnet SageMaker KI die Genauigkeit global für alle Klassen, indem die Gesamtzahl der echten positiven, falschen negativen und falschen positiven Ergebnisse gezählt wird.

    • Optionen für die Präzisionsbewertung sind in der Bibliothek verfügbar fmeval

      Mithilfe der fmeval Bibliothek können Sie mithilfe des ClassificationAccuracyConfig Parameters konfigurieren, wie der Präzisionswert berechnet wird. Die folgenden Optionen werden unterstützt: 

      • multiclass_average_strategybestimmt, wie die Punktzahlen in der Einstellung für die Mehrklassenklassifizierung klassenübergreifend aggregiert werden. Die möglichen Werte sind {'micro', 'macro', 'samples', 'weighted', 'binary'} oder None ('micro'Standard=).  Im Standardfall 'wird die Genauigkeit global für alle Klassen berechnetmicro', indem die Gesamtzahl wahr positiver, falsch negativer und falsch positiver Ergebnisse gezählt wird. Alle anderen Optionen finden Sie unter sklearn.metrics.precision_score.

        Anmerkung

        Für die binäre Klassifizierung empfehlen wir die Verwendung der 'binary' Mittelungsstrategie, die der klassischen Definition von Präzision entspricht.

  • Erinnerungswert: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt.

    • recall = true positives / (true positives + false negatives)

      • true positives: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe vorhergesagt hat.

      • false negatives: Die Anzahl der Eingaben, bei denen das Modell das angegebene Label für die jeweilige Eingabe nicht vorhersagen konnte.

    • Rufen Sie die Standardwerte für die Punktzahl bei automatischen Modellevaluierungsaufträgen von Studio ab

      Wenn Sie mit Studio einen Job zur automatischen Modellevaluierung erstellen, berechnet SageMaker KI den Rückruf global für alle Klassen, indem die Gesamtzahl der echten positiven, falsch negativen und falsch positiven Ergebnisse gezählt wird.

    • In der Bibliothek sind Optionen zum Abrufen von Punktzahlen verfügbar fmeval

      Mithilfe der fmeval Bibliothek können Sie anhand des ClassificationAccuracyConfig Parameters konfigurieren, wie der Recall-Score berechnet wird. Die folgenden Optionen werden unterstützt: 

      • multiclass_average_strategybestimmt, wie die Punktzahlen in der Einstellung für die Klassifizierung mehrerer Klassen aggregiert werden. Die möglichen Werte sind {'micro', 'macro', 'samples', 'weighted', 'binary'} oder None ('micro'Standard=).  Im Standardfall 'wird der Rückruf global für alle Klassen berechnetmicro', indem die Gesamtzahl der wahren positiven, falsch negativen und falsch positiven Ergebnisse gezählt wird. Alle anderen Optionen finden Sie unter sklearn.metrics.precision_score.

        Anmerkung

        Für die binäre Klassifikation empfehlen wir die Verwendung der 'binary' Mittelwertbildung, die der klassischen Definition von Recall entspricht.

  • Ausgewogene Klassifikationsgenauigkeit: Numerischer Wert, der zwischen 0 (schlechtesten) und 1 (besten) liegt.

    • Für die binäre Klassifizierung: Dieser Wert wird genauso berechnet wie die Genauigkeit.

    • Für die Klassifizierung in mehreren Klassen: Bei diesem Wert wird der Durchschnitt der individuellen Erinnerungswerte für alle Klassen ermittelt.

      • Für die folgenden Beispielausgaben:

        Text überprüfen Ground Truth Label Class name Vorhergesagtes Label
        Köstlicher Kuchen! Würde wieder kaufen. 3 Brownie 3
        Leckerer Kuchen! R empfohlen. 2 1 Pfund Kuchen 2
        Furchtbar! Ekelhafter Kuchen. 1 Pfundkuchen 2
        • Rückruf der Klasse 1: 0

        • Rückruf der Klasse 2: 1

        • Rückruf der Klasse 3: 1

        • Ausgewogene Klassifizierungsgenauigkeit: (0+1+1) /3=0,66