Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ungleichgewicht zwischen den Klassen (CI)
Eine Verzerrung des Klassenungleichgewichts (CI) tritt auf, wenn ein Facettenwert d im Vergleich zu einer anderen Facette a im Datensatz weniger Trainingsstichproben aufweist. Das liegt daran, dass Modelle bevorzugt an die größeren Facetten auf Kosten der kleineren Facetten angepasst werden, was zu einem höheren Trainingsfehler für Facette d führen kann. Bei Modellen besteht auch ein höheres Risiko, dass kleinere Datensätze zu stark angepasst werden, was zu größeren Testfehlern für Facette d führen kann. Denken Sie an das Beispiel, in dem ein Modell für Machine Learning hauptsächlich auf Daten von Personen mittleren Alters trainiert wird (Facette a). Es könnte weniger genau sein, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind (Facette d).
Die Formel für das (normalisierte) Facetten-Ungleichgewichtsmaß:
CI = (na – nd)/(na + nd)
Wobei na die Anzahl der Mitglieder der Facette a und nd die Zahl der Facette d ist. Ihre Werte liegen im Bereich des Intervalls [-1, 1].
-
Positive CI-Werte bedeuten, dass die Facette a mehr Trainingsstichproben im Datensatz enthält, und ein Wert von 1 gibt an, dass die Daten nur Mitglieder der Facette a enthalten.
-
CI-Werte nahe Null deuten auf eine gleichmäßigere Verteilung der Mitglieder zwischen den Facetten hin, und ein Wert von Null gibt eine vollkommen gleiche Verteilung zwischen den Facetten an und steht für eine ausgewogene Verteilung der Stichproben in den Trainingsdaten.
-
Negative CI-Werte bedeuten, dass die Facette d mehr Trainingsstichproben im Datensatz enthält, und ein Wert von -1 bedeutet, dass die Daten nur Mitglieder der Facette d enthalten.
-
CI-Werte, die sich in der Nähe eines der Extremwerte von -1 oder 1 befinden, sind sehr unausgewogen und bergen ein erhebliches Risiko, dass verzerrte Vorhersagen getroffen werden.
Wenn festgestellt wird, dass zwischen den Facetten ein erhebliches Facettenungleichgewicht besteht, sollten Sie die Stichprobe neu ausbalancieren, bevor Sie mit dem Schulen von Modellen auf ihr fortfahren.