本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
RCF 如何应用于检测异常
人类可以轻松地辨别与其余数据不同的数据点。通过构建决策树的“森林”,然后监控新数据点如何更改森林,RCF 做着相同的事情。
异常是一个数据点,会将您的注意力从正常点上移开,比如黄色花田里一朵红花的图像。此“注意力转移”编码为树(即 RCF 中的模型)的(预期)位置被输入点占据。理念是创建其中每个决策树均来自为训练算法而采样的数据分区的森林。在更技术的角度看,每个树为样本生成特定类型的二进制空间分区树。在 Amazon QuickSight 对数据采样时,RCF 会为每个数据点分配一个异常分数。它为看似异常的数据点提供较高的分数。该分数与树中的点的最终深度大致成反比。Random Cut Forest 通过从组成的每棵树计算平均分数,并根据样本大小缩放结果,从而分配异常分数。
将聚合不同模型的投票或分数,因为每个模型本身是一种弱预测器。当一个数据点的分数与最近的点明显不同时,Amazon QuickSight 会将其识别为异常。划定为异常的内容取决于应用程序。
论文 Random Cut Forest Based Anomaly Detection On Streams