Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Un humain peut facilement distinguer un point de données qui se distingue du reste des données. RCF fait de même en construisant une « forêt » d'arbres décisionnels, puis en effectuant le suivi de la façon dont les nouveaux points de données modifient la forêt.
Une anomalie est un point de données qui attire votre attention parmi les points normaux. Imaginez une fleur rouge dans un champ de fleurs jaunes. Ce « déplacement de l'attention » est codé dans la position (attendue) d'un arbre (c'est-à-dire, un modèle dans RCF) qui serait occupé par le point d'entrée. L'idée est de créer une forêt où chaque arbre de décision se développe à partir d'une partition des données échantillonnées pour former l'algorithme. En termes plus techniques, chaque arbre crée un type spécifique d'arbre de partitionnement d'espace binaire sur les échantillons. Au fur et à mesure qu'Amazon QuickSight échantillonne les données, RCF attribue un score d'anomalie à chaque point de données. Des valeurs élevées indiquent que le point de données est considéré comme anormal. Le score est, approximativement, inversement proportionnel à la profondeur résultante du point dans l'arborescence. L'algorithme Random Cut Forest attribue une valeur d'anomalie en calculant la valeur moyenne de chaque arbre constitutif et en dimensionnant le résultat par rapport à la taille de l'échantillon.
Les votes ou scores des différents modèles sont regroupés, parce que chacun des modèles en soi est un prédicteur faible. Amazon QuickSight identifie un point de données comme anormal lorsque son score est significativement différent des points récents. Ce qui est considéré comme une anomalie dépend de l’application.
Le document Random Cut Forest Based Anomaly Detection On Streams