Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Una persona puede distinguir fácilmente un punto de datos que destaca del resto. RCF hace lo mismo mediante la creación de un “bosque” de árboles de decisión y, a continuación, monitorizando cómo los nuevos puntos de datos cambian el bosque.
Una anomalía es un punto de datos que aleja su atención de los puntos normales. Piense, por ejemplo, en una imagen de una flor roja en un campo de flores amarillas. Este “desplazamiento de la atención” se codifica en la posición (esperada) de un árbol (es decir, un modelo en RCF) que estaría ocupado por el punto de entrada. La idea es crear un bosque donde cada árbol de decisiones crezca de una partición de los datos muestreados para entrenar el algoritmo. En términos más técnicos, cada árbol crea un tipo específico de árbol de partición de espacio binario en las muestras. A medida que Amazon QuickSight toma muestras de los datos, RCF asigna a cada punto de datos una puntuación de anomalía. Concede puntuaciones más altas a los puntos de datos que parecen anómalos. La puntuación es, en aproximación, inversamente proporcional a la profundidad resultante del punto en el árbol. El bosque de corte aleatorio asigna una puntuación de anomalías calculando la puntuación media de cada árbol constituyente y escalando el resultado en relación con el tamaño de la muestra.
Se suman los votos o las puntuaciones de los diferentes modelos porque cada uno de los modelos es, en sí mismo, un predictor débil. Amazon QuickSight identifica un punto de datos como anómalo cuando su puntuación es significativamente diferente de los puntos recientes. La consideración de anomalía depende de la aplicación.
El artículo Random Cut Forest Based Anomaly Detection On Streams