RCF 如何应用于检测异常 - Amazon QuickSight

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

RCF 如何应用于检测异常

人类可以轻松地辨别与其余数据不同的数据点。通过构建决策树的“森林”,然后监控新数据点如何更改森林,RCF 做着相同的事情。

异常是一个数据点,会将您的注意力从正常点上移开,比如黄色花田里一朵红花的图像。此“注意力转移”编码为树(即 RCF 中的模型)的(预期)位置被输入点占据。理念是创建其中每个决策树均来自为训练算法而采样的数据分区的森林。在更技术的角度看,每个树为样本生成特定类型的二进制空间分区树。在 Amazon QuickSight 对数据采样时,RCF 会为每个数据点分配一个异常分数。它为看似异常的数据点提供较高的分数。该分数与树中的点的最终深度大致成反比。Random Cut Forest 通过从组成的每棵树计算平均分数,并根据样本大小缩放结果,从而分配异常分数。

将聚合不同模型的投票或分数,因为每个模型本身是一种弱预测器。当一个数据点的分数与最近的点明显不同时,Amazon QuickSight 会将其识别为异常。划定为异常的内容取决于应用程序。

论文 Random Cut Forest Based Anomaly Detection On Streams 提供了此先进在线异常检测(时间序列异常检测)的多个示例。RCF 用于数据的连续分段或“瓦形”,其中直接分段中的数据充当最近分段的上下文。基于 RCF 的异常检测算法的先前版本对整个瓦形进行评分。Amazon QuickSight 中的算法还提供了当前扩展上下文中的异常的大致位置。此大致位置在检测异常存在延迟的场景中非常有用。出现延迟是因为任何算法都需要将“以前看到的偏差”描绘为“异常偏差”,这在一些时间后进行。