Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Referenz zu Metriken
In den folgenden Abschnitten werden die Metriken beschrieben, die in Amazon SageMaker Canvas für jeden Modelltyp verfügbar sind.
Metriken für numerische Vorhersagen
Die folgende Liste definiert die Metriken für numerische Vorhersagen in SageMaker Canvas und gibt Ihnen Informationen darüber, wie Sie sie verwenden können.
-
InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.
-
MAE— Bedeutet absoluten Fehler. Im Durchschnitt liegt die Vorhersage für die Zielspalte +/- {MAE} vom tatsächlichen Wert ab.
Misst, wie unterschiedlich die vorhergesagten und tatsächlichen Werte sind, wenn sie über alle Werte gemittelt werden. MAEwird häufig in der numerischen Vorhersage verwendet, um Fehler bei der Modellvorhersage zu verstehen. Wenn die Vorhersagen linear sind, MAE stellt dies die durchschnittliche Entfernung zwischen einer vorhergesagten Linie und dem tatsächlichen Wert dar. MAEist definiert als die Summe der absoluten Fehler geteilt durch die Anzahl der Beobachtungen. Die Werte reichen von 0 bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin.
-
MAPE— Mittlerer absoluter prozentualer Fehler. Im Durchschnitt liegt die Vorhersage für die Zielspalte +/- {MAPE}% vom tatsächlichen Wert ab.
MAPEist der Mittelwert der absoluten Differenzen zwischen den tatsächlichen Werten und den vorhergesagten oder geschätzten Werten, geteilt durch die tatsächlichen Werte und ausgedrückt als Prozentsatz. Ein niedrigerer MAPE Wert bedeutet eine bessere Leistung, da dies bedeutet, dass die vorhergesagten oder geschätzten Werte näher an den tatsächlichen Werten liegen.
-
MSE— Mittlerer quadratischer Fehler oder der Durchschnitt der quadrierten Differenzen zwischen den vorhergesagten und den tatsächlichen Werten.
MSEWerte sind immer positiv. Je besser ein Modell die tatsächlichen Werte vorhersagen kann, desto kleiner ist der MSE Wert.
-
R2 – Der Prozentsatz der Differenz in der Zielspalte, der durch die Eingabespalte erklärt werden kann.
Quantifiziert, inwieweit ein Modell die Varianz einer abhängigen Variablen erklären kann. Die Werte reichen von Eins (1) bis negativ Eins (-1). Höhere Zahlen deuten auf einen höheren Anteil der erklärten Variabilität hin. Werte nahe Null (0) deuten darauf hin, dass nur ein sehr geringer Teil der abhängigen Variablen durch das Modell erklärt werden kann. Negative Werte deuten auf eine schlechte Anpassung hin und darauf, dass das Modell durch eine konstante Funktion (oder eine horizontale Linie) übertroffen wird.
-
RMSE— Der quadratische Mittelwert des Fehlers oder die Standardabweichung der Fehler.
Misst die Quadratwurzel der quadratischen Differenz zwischen vorhergesagten und tatsächlichen Werten und wird über alle Werte gemittelt. Es wird verwendet, um Fehler bei der Modellvorhersage zu verstehen, und es ist eine wichtige Metrik, um auf das Vorhandensein großer Modellfehler und Ausreißer hinzuweisen. Die Werte reichen von Null (0) bis unendlich. Dabei weisen kleinere Zahlen auf eine bessere Anpassung des Modells an die Daten hin. RMSEhängt vom Maßstab ab und sollte nicht zum Vergleich von Datensätzen verschiedener Typen verwendet werden.
Metriken für kategoriale Vorhersagen
Dieser Abschnitt definiert die Metriken für kategoriale Vorhersagen in SageMaker Canvas und gibt Ihnen Informationen darüber, wie Sie sie verwenden können.
Im Folgenden finden Sie eine Liste der verfügbaren Metriken für Vorhersagen in zwei Kategorien:
-
Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.
Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.
-
AUC— Ein Wert zwischen 0 und 1, der angibt, wie gut Ihr Modell die Kategorien in Ihrem Datensatz trennen kann. Ein Wert von 1 gibt an, dass die Kategorien perfekt getrennt werden konnten.
-
BalancedAccuracy — Misst das Verhältnis von genauen Vorhersagen zu allen Vorhersagen.
Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Es ist wie folgt definiert:
0.5*((TP/P)+(TN/N))
, mit Werten im Bereich von 0 bis 1. Die ausgewogene Genauigkeitsmetrik bietet ein besseres Maß für die Genauigkeit, wenn sich die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander unterscheidet, z. B. wenn nur 1% der E-Mails Spam sind. -
F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.
Es ist das harmonische Mittel der Genauigkeits- und Erinnerungswerte, das wie folgt definiert ist:.
F1 = 2 * (precision * recall) / (precision + recall)
Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste. -
InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.
-
LogLoss — Der Logverlust, auch bekannt als Kreuzentropieverlust, ist eine Metrik, die zur Bewertung der Qualität der Wahrscheinlichkeitsausgaben und nicht der Ergebnisse selbst verwendet wird. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.
-
Genauigkeit — Von allen Fällen, in denen {Kategorie x} vorhergesagt wurde, war die Vorhersage in% der Fälle korrekt {Genauigkeit}.
Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Sie ist wie folgt definiert:
Precision = TP/(TP+FP)
, mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist. -
Rückruf — Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.
Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Recall ist wie folgt definiert:
Recall = TP/(TP+FN)
, mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Beachten Sie, dass es oft nicht ausreicht, nur den Erinnerungswert zu messen, da die Vorhersage jedes Outputs als wirklich positiv zu bewerten ist, zu einem perfekten Erinnerungswert führt.
Im Folgenden finden Sie eine Liste der verfügbaren Metriken für die Vorhersage von mehr als einer Kategorie:
-
Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.
Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.
-
BalancedAccuracy — Misst das Verhältnis von genauen Prognosen zu allen Vorhersagen.
Dieses Verhältnis wird berechnet, nachdem wirklich positive (TP) und True negative Werte (TN) durch die Gesamtzahl der positiven (P) und negativen (N) Werte normalisiert wurden. Es ist wie folgt definiert:
0.5*((TP/P)+(TN/N))
, mit Werten im Bereich von 0 bis 1. Die ausgewogene Genauigkeitsmetrik bietet ein besseres Maß für die Genauigkeit, wenn sich die Anzahl der positiven oder negativen Ergebnisse in einem unausgewogenen Datensatz stark voneinander unterscheidet, z. B. wenn nur 1% der E-Mails Spam sind. -
F1Macro — Die F1-Makro-Punktzahl wendet die F1-Bewertung an, indem sie die Genauigkeit und den Erinnerungswert berechnet und dann anhand des harmonischen Mittelwerts den F1-Wert für jede Klasse berechnet. Anschließend berechnet das F1Macro den Durchschnitt der Einzelwerte, um den F1Makro-Score zu erhalten. Die F1Macro-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste.
-
InferenceLatency — Die ungefähre Zeitspanne zwischen der Anforderung einer Modellvorhersage und deren Empfang von einem Echtzeit-Endpunkt, auf dem das Modell bereitgestellt wird. Diese Metrik wird in Sekunden gemessen und ist nur für Modelle verfügbar, die im Ensembling-Modus erstellt wurden.
-
LogLoss — Der Logverlust, auch bekannt als Kreuzentropieverlust, ist eine Metrik, die zur Bewertung der Qualität der Wahrscheinlichkeitsausgaben und nicht der Ergebnisse selbst verwendet wird. Der Protokollverlust ist eine wichtige Kennzahl, die angibt, wann ein Modell mit hoher Wahrscheinlichkeit falsche Voraussagen trifft. Werte liegen zwischen 0 und unendlich. Ein Wert von 0 steht für ein Modell, das die Daten perfekt vorhersagt.
-
PrecisionMacro — Misst die Genauigkeit, indem die Genauigkeit für jede Klasse berechnet und der Durchschnitt der Ergebnisse gebildet wird, um die Genauigkeit für mehrere Klassen zu ermitteln. Die Punktzahlen reichen von Null (0) bis Eins (1). Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) aus allen identifizierten positiven Ergebnissen vorauszusagen, wobei der Durchschnitt über mehrere Klassen hinweg berechnet wird.
-
RecallMacro — Misst den Erinnerungswert, indem der Erinnerungswert für jede Klasse berechnet und der Durchschnitt der Ergebnisse gebildet wird, um den Erinnerungswert für mehrere Klassen zu ermitteln. Die Punktzahlen reichen von 0 bis 1. Höhere Werte spiegeln die Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in einem Datensatz vorauszusagen, wohingegen ein wirklich positives Ergebnis eine positive Voraussage widerspiegelt, die auch ein tatsächlich positiver Wert in den Daten ist. Oft reicht es nicht aus, nur den Erinnerungswert zu messen, da die Voraussage jeder Ausgabe als wirklich positiv zu einem perfekten Erinnerungswert führen wird.
Beachten Sie, dass Sie bei Vorhersagen für Kategorien ab 3 oder mehr auch die durchschnittlichen Kennzahlen F1, Genauigkeit, Präzision und Rückruf erhalten. Bei den Punktzahlen für diese Metriken handelt es sich lediglich um die Durchschnittswerte aller Kategorien.
Metriken für die Bild- und Textvorhersage
Im Folgenden finden Sie eine Liste der verfügbaren Metriken für die Bild- und Textvorhersage.
-
Genauigkeit – Der Prozentsatz der richtigen Vorhersagen.
Oder das Verhältnis der Anzahl der korrekt vorhergesagten Elemente zur Gesamtzahl der Vorhersagen. Die Genauigkeit gibt an, wie nahe die vorhergesagten Klassenwerte an den tatsächlichen Werten liegen. Die Werte für Genauigkeitsmetriken variieren zwischen Null (0) und Eins (1). Ein Wert von 1 steht für perfekte Genauigkeit und 0 für vollständige Ungenauigkeit.
-
F1 – Ein ausgewogenes Maß für Genauigkeit, das das Klassengleichgewicht berücksichtigt.
Dies ist das harmonische Mittel der Genauigkeits- und Erinnerungswerte, wie folgt definiert:.
F1 = 2 * (precision * recall) / (precision + recall)
Die F1-Werte variieren zwischen 0 und 1. Ein Wert von 1 steht für die bestmögliche Leistung und 0 für die schlechteste. -
Präzision — Von allen Fällen, in denen {Kategorie x} vorhergesagt wurde, war die Vorhersage in% der Fälle korrekt {Genauigkeit}.
Mit der Präzision wird gemessen, wie gut ein Algorithmus unter allen von ihm identifizierten positiven Ergebnissen die wirklich positiven Ergebnisse (TP) voraussagt. Sie ist wie folgt definiert:
Precision = TP/(TP+FP)
, mit Werten im Bereich von Null (0) bis Eins (1). Präzision ist eine wichtige Kennzahl, wenn die Kosten eines falsch positiven Ergebnisses hoch sind. Die Kosten eines falsch positiven Ergebnisses sind beispielsweise sehr hoch, wenn ein Flugzeugsicherheitssystem fälschlicherweise als flugsicher eingestuft wird. Ein falsch positives Ergebnis (FP) spiegelt eine positive Voraussage wider, die in den Daten tatsächlich negativ ist. -
Rückruf — Das Modell hat korrekt vorausgesagt, dass {recall}% {category x} sein würde, obwohl {target_column} tatsächlich {category x} war.
Der Erinnerungswert misst, wie gut ein Algorithmus alle wirklich positiven Ergebnisse (TP) in einem Datensatz korrekt voraussagt. Ein wirklich positives Ergebnis ist eine positive Voraussage, die auch einen tatsächlich positiver Wert in den Daten darstellt. Recall ist wie folgt definiert:
Recall = TP/(TP+FN)
, mit Werten im Bereich von 0 bis 1. Höhere Werte spiegeln die bessere Fähigkeit des Modells wider, wirklich positive Ergebnisse (TP) in den Daten vorauszusagen. Beachten Sie, dass es oft nicht ausreicht, nur den Erinnerungswert zu messen, da die Vorhersage jedes Outputs als wirklich positiv zu bewerten ist, zu einem perfekten Erinnerungswert führt.
Beachten Sie, dass Sie bei Bild- und Textvorhersagemodellen, bei denen Sie 3 oder mehr Kategorien vorhersagen, auch die durchschnittlichen Kennzahlen F1, Genauigkeit, Präzision und Erinnerung erhalten. Bei den Punktzahlen für diese Metriken handelt es sich lediglich um den Durchschnittswert der Metriken für alle Kategorien.
Metriken für Zeitreihenprognosen
Im Folgenden werden die erweiterten Metriken für Zeitreihenprognosen in Amazon SageMaker Canvas definiert und Sie erhalten Informationen darüber, wie Sie sie verwenden können.
-
Average Weighted Quantile Loss (wQL) – Wertet die Prognose aus, indem der Durchschnitt der Genauigkeit anhand der Quantile P10, P50 und P90 berechnet wird. Ein niedrigerer Wert bedeutet ein genaueres Modell.
-
Gewichteter absoluter prozentualer Fehler (WAPE) — Die Summe des absoluten Fehlers, normalisiert durch die Summe des absoluten Ziels, das die Gesamtabweichung der prognostizierten Werte von den beobachteten Werten misst. Ein niedrigerer Wert steht für ein genaueres Modell, wobei WAPE = 0 für ein Modell ohne Fehler steht.
-
Root Mean Square Error (RMSE) — Die Quadratwurzel der durchschnittlichen quadratischen Fehler. Ein niedrigerer RMSE Wert steht für ein genaueres Modell, wobei RMSE = 0 für ein Modell ohne Fehler steht.
-
Mittlerer absoluter Fehler in Prozent (MAPE) — Der prozentuale Fehler (prozentuale Differenz zwischen dem mittleren prognostizierten Wert und dem tatsächlichen Wert), der über alle Zeitpunkte gemittelt wird. Ein niedrigerer Wert steht für ein genaueres Modell, wobei MAPE = 0 für ein Modell ohne Fehler steht.
-
Mittlerer absoluter skalierter Fehler (MASE) — Der mittlere absolute Fehler der Prognose, normalisiert durch den mittleren absoluten Fehler einer einfachen Basisprognosemethode. Ein niedrigerer Wert steht für ein genaueres Modell, bei dem MASE < 1 als besser als der Basiswert und MASE > 1 als schlechter als der Basiswert geschätzt wird.