Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Ein Mensch kann ganz einfach einen Datenpunkt unterscheiden, der sich von den übrigen Daten abhebt. RCF macht es ähnlich, indem eine „Gesamtstruktur“ („Wald“) von Entscheidungsstrukturen erstellt und anschließend überwacht wird, wie neue Datenpunkte die Gesamtstruktur ändern.
Eine anomaly (Anomalie) ist ein Datenpunkt, der Ihre Aufmerksamkeit von normalen Punkten ablenkt – denken sie an ein Image einer roten Blume in einem Feld von gelben Blumen. Diese „Verschiebung der Aufmerksamkeit“ ist in der (erwarteten) Position einer Struktur (d. h., einem Modell in RCF) kodiert, die vom Eingabepunkt belegt wird. Ziel ist es, eine Gesamtstruktur zu erstellen, wobei jede Entscheidungsstruktur aus einer Partition der Daten entsteht, die für die Schulung des Algorithmus gesampelt werden. Technisch ausgedrückt erstellt jede Struktur eine bestimmte Art von binärer Struktur der Speicherpartitionierung für die Stichproben. Während Amazon die Daten QuickSight abtastet, weist RCF jedem Datenpunkt einen Anomalie-Score zu. Es vergibt höhere Bewertungen an Datenpunkte, die anomal aussehen. Die Bewertung ist annähernd umgekehrt proportional zur resultierenden Tiefe des Punkts in der Struktur. Random Cut Forest weist die Anomaliebewertung durch Berechnung der durchschnittlichen Bewertung jeder einzelnen Struktur und Skalierung des Ergebnisses unter Berücksichtigung der Stichprobengröße zu.
Die Stimmen oder Bewertungen der verschiedenen Modelle werden aggregiert, da jedes der Modelle selbst eine schwache Prognosekraft ist. Amazon QuickSight identifiziert einen Datenpunkt als ungewöhnlich, wenn sich sein Wert deutlich von den aktuellen Punkten unterscheidet. Was als Anomalie gilt, hängt von der Anwendung ab.
Der paper Random Cut Forest Based Anomaly Detection On Streams